[go: up one dir, main page]

RU2822040C1 - Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием - Google Patents

Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием Download PDF

Info

Publication number
RU2822040C1
RU2822040C1 RU2023104657A RU2023104657A RU2822040C1 RU 2822040 C1 RU2822040 C1 RU 2822040C1 RU 2023104657 A RU2023104657 A RU 2023104657A RU 2023104657 A RU2023104657 A RU 2023104657A RU 2822040 C1 RU2822040 C1 RU 2822040C1
Authority
RU
Russia
Prior art keywords
sequencing
exome
data
coverage
genome
Prior art date
Application number
RU2023104657A
Other languages
English (en)
Inventor
Екатерина Шубина
Денис Владимирович Ребриков
Дмитрий Юрьевич Трофимов
Original Assignee
Общество с ограниченной ответственностью "Научно-производственная фирма ДНК-Технология" (ООО "НПФ ДНК-Технология")
Федеральное государственное бюджетное учреждение "Национальный медицинский исследовательский центр акушерства, гинекологии и перинатологии имени академика В.И. Кулакова Министерства здравоохранения Российской Федерации (ФГБУ НМИЦ акушерства, гинекологии и перинатологии им. В.И. Кулакова Минздрава РФ
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Научно-производственная фирма ДНК-Технология" (ООО "НПФ ДНК-Технология"), Федеральное государственное бюджетное учреждение "Национальный медицинский исследовательский центр акушерства, гинекологии и перинатологии имени академика В.И. Кулакова Министерства здравоохранения Российской Федерации (ФГБУ НМИЦ акушерства, гинекологии и перинатологии им. В.И. Кулакова Минздрава РФ filed Critical Общество с ограниченной ответственностью "Научно-производственная фирма ДНК-Технология" (ООО "НПФ ДНК-Технология")
Application granted granted Critical
Publication of RU2822040C1 publication Critical patent/RU2822040C1/ru

Links

Abstract

Изобретение относится к области молекулярной биологии. Описан способ обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0,1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид. Технический результат состоит в создании нового способа выявления терминальных изменений числа копий и увеличении его точности путем секвенирования полного экзома человека и генома с низким покрытием и обработки получаемых данных. 4 ил., 1 пр.

Description

Изобретение относится к медицине, биологии, биотехнологии, эпидемиологии, а именно - к способам диагностики заболеваний, вызванных вариацией числа копий определенной последовательности геномной ДНК человека (copy number variation, CNV) и может быть использовано в медицинской (клинической) практике для диагностики и дифференциальной диагностики патологических процессов, вызванных вариацией числа копий определенной последовательности геномной ДНК человека.
Результаты многочисленных исследований убедительно доказали патогенетическое значение вариаций числа копий определенных последовательностей геномной ДНК человека (Wu C.H.W. et al. Copy Number Variation Analysis Facilitates Identification of Genetic Causation in Patients with Congenital Anomalies of the Kidney and Urinary Tract // Eur. Urol. Open Sci. The Authors, 2022. Vol. 44. P. 106-112; BHW F. et al. All-in-one whole exome sequencing strategy with simultaneous CNV-, SNV- and Absence-of-Heterozygosity analysis in fetuses with structural ultrasound anomalies: A one year's experience. // Prenat. Diagn. 2023; Correa-Silva S.R. et al. Copy number variation in pituitary stalk interruption syndrome: A large case series of sporadic non-syndromic patients and literature review // J. Neuroendocrinol. 2023. Vol. 35, №1).
Учитывая важность и актуальность решения проблемы точной оценки вариаций числа копий определенных последовательностей геномной ДНК человека для различных областей медицины, возникает настоятельная потребность в разработке и внедрении в практическое здравоохранение новых диагностических подходов, позволяющих определять CNV. Подобные новые диагностические подходы необходимы для диагностики генетических, онкологических, иммунологических и иных заболеваний.
В настоящее время для обнаружения вариаций числа копий определенных последовательностей геномной ДНК человека используют различные методы клинической и лабораторной диагностики: множество вариантов гибридизации, ПЦР, метод мультиплексной амплификации лигазо-связанных проб (MLPA), секвенирование первого, второго и третьего поколений, хромосомный микроматричный анализ. В частности, наиболее актуальным на сегодня подходом является секвенирование второго поколения (высокопроизводительное секвенирование, next generation sequencing, NGS), выполняемое по протоколу определения полного генома, полного экзома или отдельных панелей генов.
Для поиска CNV в данных экзомного и геномного секвенирования предложен ряд инструментов как для анализа данных геномного секвенирования: CNVnator (Abyzov A. et al. CNVnator: An approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. 2011. P. 974-984), CNVSeq (Xie C., Tammi M.T. CNV-seq, a new method to detect copy number variation using high-throughput sequencing. // BMC Bioinformatics. 2009. Vol. 10. P. 80), CNV-TV (Duan J. et al. CNV-TV: a robust method to discover copy number variation from short sequencing reads. // BMC Bioinformatics. 2013. Vol. 14. P. 150) так и для поиска CNV в данных экзомного секвенирования DECoN (Fowler A. DECoN: А Detection and Visualization Tool for Exonic Copy Number Variants. 2022. P. 77-88), SavvyCNV (Laver T.W. et al. SavvyCNV: Genome-wide CNV calling from off-target reads // PLoS Comput. Biol. 2022. Vol. 18, №3. P. 1-16) и др.
Большинство известных алгоритмов для поиска CNV в данных секвенирования нового поколения используют информацию о глубине прочтения регионов и не учитывают информацию о генотипах в регионе, кроме того, при использовании секвенировании с низким покрытие информация о генотипах недоступна, результаты, получаемые по данных этих инструментов как правило сильно зашумлены и требуют обязательного подтверждения референсным методом (Özden F., Alkan C., Çiçek A.E. Polishing copy number variant calls on exome sequencing data via deep learning // Genome Res. 2022. Vol. 32, №6. P. 1170-1182).
Таким образом, разработка нового способа выявления вариаций и изменений числа копий по данным секвенирования экзома совместно с секвенирование генома с низким покрытием позволит повысить эффективность использования данной технологии в медицине благодаря уточнению наличия или отсутствия CNV по данным доли альтернативных аллелей в экзомных данных и изменении глубины покрытия как в данных до проведения обогащения, так и данных после проведения обогащения.
Ближайшими аналогами предлагаемого способа являются:
- Заявка на изобретение №2020114321 от 21.04.2020 «Способ выявления вариаций и изменений числа копий в генах BRCA1 и BRCA2 по данным таргетного массового параллельного секвенирования генома». Предложен способ выявления вариаций и изменений числа копий в генах BRCA1 и BRCA2.
Однако описанный способ обеспечивает выявление вариаций числа копий лишь определенного региона геномной ДНК (в генах BRCA1 и BRCA2).
- Заявка на изобретение RU 2014134175/10А от 20.01.2012 «Способ и система выявления вариации числа копий в геноме» где предложен способ выявление изменений числа копий фрагментов хромосом по данным полногеномного секвенирования.
Однако описанный способ учитывает только изменение глубины покрытия и точки разрыва и не учитывает генотипы вариантов в регионе.
Технический результат состоит в создании нового способа выявления терминальных изменений числа копий и увеличение его точности путем секвенирования полного экзома человека и генома с низким покрытием и обработки получаемых данных.
Технический результат достигается тем, что в способе обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0.1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид, включающий выделение геномной ДНК из лейкоцитов крови пациентов, подготовку геномных библиотек, проведение обогащения целевой ДНК с использованием гибридизационной системы экзомного обогащения, проведение одновременного секвенирования геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS, анализ данных экзомного секвенирования и секвенирования генома с низким покрытием , картирование полученных после секвенирования прочтений на последовательность референсного генома человека с использованием алгоритма BWA-MEM, конвертирование полученного SAM-файла в ВАМ-файл, его сортирование и индексирование функциями программы SAMtools, обработка полученного файла с данными секвенирования генома с низким покрытием с помощью программы QDNASeq, в результате чего получается VCF-файл с данными о нарушениях числа копий, проведение поиска отличий от референсного генома для файла с данными секвенирования экзома с использованием протокола GATK best practices и поиск CNV в экзомных данных с использованием GATK, кроме того проводится оценка покрытия каждой хромосомы, после получения всех данных проводится сопоставление результатов, полученных разными способами, из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
Способ осуществляется следующим образом образом.
Из образцов геномной ДНК, выделенных из лейкоцитов крови пациентов готовят геномные библиотеки, после чего проводят обогащение целевой ДНК с использованием гибридизационной системы обогащения. Преимущественно используется набор для экзомного обогащения IDT xGen™ Exome Hyb Panel v2, однако он может быть заменен на любой другой, который позволяет проводить экзомное обогащение. Далее проводят одновременное секвенирование геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS (например, Novaseq, HiSeq Illumina или DNBSEQ-T7, DNBSEQ-G400, DNBSEQ-G50 BGI). Полученные после секвенирования прочтения картируют на последовательность референсного генома человека с использованием алгоритма BWA mem (http://bio-bwa.sourceforge.net). Полученный SAM-файл конвертируют в ВАМ-файл функцией view программы samtools, а последний сортируют и индексируют функциями sort и index samtools, соответственно. Полученный файл с данными секвенирования генома с низким покрытием обрабатывается с помощью программы QDNASeq https://bioconductor.org/packages/release/bioc/html/QDNAseq.html), в результате чего получается vcf файл с данными о нарушениях числа копий. Для файла с данными секвенирования экзома проводится поиск отличий от референсного генома с использованием протокола GATK best practices (https://gatk.broadinstitute.org/hc/en-us/articles/360035535932-Germline-short-variant-discovery-SNPs-Indels-) и поиск CNV в экзомных данных с использованием GATK, кроме того проводится оценка покрытия каждой хромосомы.
После получения всех данных проводится сопоставление результатов, полученных разными способами. Из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
Например, в случае подозрения на делецию в регионе делеции ожидается отсутствие гетерозиготных отличий от референсного генома. В случае подозрения на дупликацию для гетерозиготных отличий от референсного генома ожидается соотношение аллелей 1:2 вместо обычного для гетерозигот 1:1.
Определяющими преимуществом способа является анализ числа копий всей последовательности генома, а не только определенных регионов, а также секвенирование 2-х типов библиотек, что незначительно влияет на стоимость анализа, но при этом позволяет проводить анализ не только фрагментов полученных после проведения обогащения, что значительно влияет на равномерность представленности фрагментов.
Разработанный подход может быть использован для дополнительного анализа CNV при проведении экзомного исследования.
Пример реализации изобретения
Результаты определения CNV сравнивали с данными стандартного кариотипирования или с данными хромосомного микроматричного анализа.
Образец 1 (фиг. 1, 2)
По данным секвенирования с низким покрытие была обнаружена делеция на 8 хромосоме. Потеря гетерозиготности с данных экзомного секвенирования подтверждает наличие делеции. По данным хромосомного микроматричного анализа наличие делеции так же подтверждено.
Образец 2 (фиг. 3)
По данным секвенирования с низким покрытие была обнаружена трисомия по 21 хромосоме. Изменение соотношения гетерозигных аллелей в данных экзомного секвенирования подтверждает наличие трисомии. По данным стандартного кариотипирования подтверждена трисомия 21.
Образец 3 (фиг. 4)
По данным секвенирования с низким покрытием было обнаружено нарушение числа копий половых хромосом (2 копии X хромосомы и 1 копия Y хромосомы). Наличие гетерозигных аллелей на X хромосоме в данных экзомного секвенирования подтверждает наличие 2-х копий X хромосомы, а наличие покрытия целевых регионов Y хромосомы подтверждает мужской пол. По данным кариотипирования подтверждено наличие синдрома Клайенфельтера.

Claims (1)

  1. Способ обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0,1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид, включающий выделение геномной ДНК из лейкоцитов крови пациентов, подготовку геномных библиотек, проведение обогащения целевой ДНК с использованием гибридизационной системы экзомного обогащения, проведение одновременного секвенирования геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS, анализ данных экзомного секвенирования и секвенирования генома с низким покрытием, картирование полученных после секвенирования прочтений на последовательность референсного генома человека с использованием алгоритма BWA-MEM, конвертирование полученного SAM-файла в ВАМ-файл, его сортирование и индексирование функциями программы SAMtools, обработку полученного файла с данными секвенирования генома с низким покрытием с помощью программы QDNASeq, в результате чего получается VCF-файл с данными о нарушениях числа копий, проведение поиска отличий от референсного генома для файла с данными секвенирования экзома с использованием протокола GATK best practices и поиск CNV в экзомных данных с использованием GATK, кроме того, проводится оценка покрытия каждой хромосомы, после получения всех данных проводится сопоставление результатов, полученных разными способами, из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
RU2023104657A 2023-03-01 Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием RU2822040C1 (ru)

Publications (1)

Publication Number Publication Date
RU2822040C1 true RU2822040C1 (ru) 2024-06-28

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2593708C2 (ru) * 2012-01-20 2016-08-10 БГИ Диагносис Ко., Лтд. Способ и система выявления вариации числа копий в геноме
CN108292327A (zh) * 2015-11-18 2018-07-17 索菲亚遗传股份有限公司 下一代测序中检测拷贝数变异的方法
US20200270682A1 (en) * 2015-07-08 2020-08-27 Quest Diagnostics Investments Incorporated Detecting genetic copy number variation
US20220215900A1 (en) * 2021-01-07 2022-07-07 Tempus Labs, Inc. Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2593708C2 (ru) * 2012-01-20 2016-08-10 БГИ Диагносис Ко., Лтд. Способ и система выявления вариации числа копий в геноме
US20200270682A1 (en) * 2015-07-08 2020-08-27 Quest Diagnostics Investments Incorporated Detecting genetic copy number variation
CN108292327A (zh) * 2015-11-18 2018-07-17 索菲亚遗传股份有限公司 下一代测序中检测拷贝数变异的方法
US20220215900A1 (en) * 2021-01-07 2022-07-07 Tempus Labs, Inc. Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics

Similar Documents

Publication Publication Date Title
Villani et al. The clinical utility of integrative genomics in childhood cancer extends beyond targetable mutations
EP3274475B1 (en) Alignment and variant sequencing analysis pipeline
US11319586B2 (en) Single-molecule sequencing of plasma DNA
WO2017045654A1 (zh) 确定受体cfDNA样本中供体来源cfDNA比例的方法
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
Lange et al. Analysis pipelines for cancer genome sequencing in mice
KR20220012849A (ko) 단일 세포 유전 구조 변이의 포괄적인 검출
CN110168648A (zh) 序列变异识别的验证方法和系统
EA033752B1 (ru) Способ определения по меньшей мере части генома плода на основе анализа материнского биологического образца
WO2018090991A1 (en) Universal haplotype-based noninvasive prenatal testing for single gene diseases
Ma et al. The analysis of ChIP-Seq data
Engelbrecht et al. Addressing technical pitfalls in pursuit of molecular factors that mediate immunoglobulin gene regulation
CN111433855A (zh) 筛查系统和方法
RU2822040C1 (ru) Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием
Hung et al. Genetic diversity and structural complexity of the killer-cell immunoglobulin-like receptor gene complex: A comprehensive analysis using human pangenome assemblies
JP2022549823A (ja) キットおよびキットの使用方法
JP2025514547A (ja) 遺伝子疾患の診断及び管理のための片親起源疾患対立遺伝子検出のための方法及び装置
Esim et al. Determination of malignant melanoma by analysis of variation values
Ma et al. Navigating web-based resources for genetic testing of chromosome abnormalities, CNVs and gene mutations
Foltz et al. Somatic mutation phasing and haplotype extension using linked-reads in multiple myeloma
Silva et al. Comparative analysis of hybrid-SNP microarray and nanopore sequencing for detection of large-sized copy number variants in the human genome
Caggiano et al. Epigenetic profiles of tissue informative CpGs inform ALS disease status and progression
Arres et al. Assessing the readiness of Oxford Nanopore sequencing for clinical genomics applications
Yu Analysis of consensus genome-wide expression-QTLS and their relationships to human complex trait diseases
Sood Bioinformatic analysis of human Next Generation Sequencing data; extracting additional information, optimising mapping and variant calling, and application in a rare disease