RU2822040C1 - Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием - Google Patents
Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием Download PDFInfo
- Publication number
- RU2822040C1 RU2822040C1 RU2023104657A RU2023104657A RU2822040C1 RU 2822040 C1 RU2822040 C1 RU 2822040C1 RU 2023104657 A RU2023104657 A RU 2023104657A RU 2023104657 A RU2023104657 A RU 2023104657A RU 2822040 C1 RU2822040 C1 RU 2822040C1
- Authority
- RU
- Russia
- Prior art keywords
- sequencing
- exome
- data
- coverage
- genome
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 23
- 239000002773 nucleotide Substances 0.000 claims abstract description 6
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000007482 whole exome sequencing Methods 0.000 claims description 13
- 238000012268 genome sequencing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 210000000349 chromosome Anatomy 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000009396 hybridization Methods 0.000 claims description 4
- 238000003339 best practice Methods 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 abstract 1
- 108020004414 DNA Proteins 0.000 description 10
- 238000013459 approach Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 108700028369 Alleles Proteins 0.000 description 3
- 102000036365 BRCA1 Human genes 0.000 description 3
- 108700040618 BRCA1 Genes Proteins 0.000 description 3
- 108700010154 BRCA2 Genes Proteins 0.000 description 3
- 210000001766 X chromosome Anatomy 0.000 description 3
- 230000002759 chromosomal effect Effects 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000010208 microarray analysis Methods 0.000 description 3
- 201000010374 Down Syndrome Diseases 0.000 description 2
- 206010044688 Trisomy 21 Diseases 0.000 description 2
- 210000002593 Y chromosome Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 201000005965 CAKUT Diseases 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 208000037273 Pathologic Processes Diseases 0.000 description 1
- 208000037280 Trisomy Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 208000023124 congenital anomaly of kidney and urinary tract Diseases 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000771 oncological effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000009054 pathological process Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Abstract
Изобретение относится к области молекулярной биологии. Описан способ обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0,1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид. Технический результат состоит в создании нового способа выявления терминальных изменений числа копий и увеличении его точности путем секвенирования полного экзома человека и генома с низким покрытием и обработки получаемых данных. 4 ил., 1 пр.
Description
Изобретение относится к медицине, биологии, биотехнологии, эпидемиологии, а именно - к способам диагностики заболеваний, вызванных вариацией числа копий определенной последовательности геномной ДНК человека (copy number variation, CNV) и может быть использовано в медицинской (клинической) практике для диагностики и дифференциальной диагностики патологических процессов, вызванных вариацией числа копий определенной последовательности геномной ДНК человека.
Результаты многочисленных исследований убедительно доказали патогенетическое значение вариаций числа копий определенных последовательностей геномной ДНК человека (Wu C.H.W. et al. Copy Number Variation Analysis Facilitates Identification of Genetic Causation in Patients with Congenital Anomalies of the Kidney and Urinary Tract // Eur. Urol. Open Sci. The Authors, 2022. Vol. 44. P. 106-112; BHW F. et al. All-in-one whole exome sequencing strategy with simultaneous CNV-, SNV- and Absence-of-Heterozygosity analysis in fetuses with structural ultrasound anomalies: A one year's experience. // Prenat. Diagn. 2023; Correa-Silva S.R. et al. Copy number variation in pituitary stalk interruption syndrome: A large case series of sporadic non-syndromic patients and literature review // J. Neuroendocrinol. 2023. Vol. 35, №1).
Учитывая важность и актуальность решения проблемы точной оценки вариаций числа копий определенных последовательностей геномной ДНК человека для различных областей медицины, возникает настоятельная потребность в разработке и внедрении в практическое здравоохранение новых диагностических подходов, позволяющих определять CNV. Подобные новые диагностические подходы необходимы для диагностики генетических, онкологических, иммунологических и иных заболеваний.
В настоящее время для обнаружения вариаций числа копий определенных последовательностей геномной ДНК человека используют различные методы клинической и лабораторной диагностики: множество вариантов гибридизации, ПЦР, метод мультиплексной амплификации лигазо-связанных проб (MLPA), секвенирование первого, второго и третьего поколений, хромосомный микроматричный анализ. В частности, наиболее актуальным на сегодня подходом является секвенирование второго поколения (высокопроизводительное секвенирование, next generation sequencing, NGS), выполняемое по протоколу определения полного генома, полного экзома или отдельных панелей генов.
Для поиска CNV в данных экзомного и геномного секвенирования предложен ряд инструментов как для анализа данных геномного секвенирования: CNVnator (Abyzov A. et al. CNVnator: An approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. 2011. P. 974-984), CNVSeq (Xie C., Tammi M.T. CNV-seq, a new method to detect copy number variation using high-throughput sequencing. // BMC Bioinformatics. 2009. Vol. 10. P. 80), CNV-TV (Duan J. et al. CNV-TV: a robust method to discover copy number variation from short sequencing reads. // BMC Bioinformatics. 2013. Vol. 14. P. 150) так и для поиска CNV в данных экзомного секвенирования DECoN (Fowler A. DECoN: А Detection and Visualization Tool for Exonic Copy Number Variants. 2022. P. 77-88), SavvyCNV (Laver T.W. et al. SavvyCNV: Genome-wide CNV calling from off-target reads // PLoS Comput. Biol. 2022. Vol. 18, №3. P. 1-16) и др.
Большинство известных алгоритмов для поиска CNV в данных секвенирования нового поколения используют информацию о глубине прочтения регионов и не учитывают информацию о генотипах в регионе, кроме того, при использовании секвенировании с низким покрытие информация о генотипах недоступна, результаты, получаемые по данных этих инструментов как правило сильно зашумлены и требуют обязательного подтверждения референсным методом (Özden F., Alkan C., Çiçek A.E. Polishing copy number variant calls on exome sequencing data via deep learning // Genome Res. 2022. Vol. 32, №6. P. 1170-1182).
Таким образом, разработка нового способа выявления вариаций и изменений числа копий по данным секвенирования экзома совместно с секвенирование генома с низким покрытием позволит повысить эффективность использования данной технологии в медицине благодаря уточнению наличия или отсутствия CNV по данным доли альтернативных аллелей в экзомных данных и изменении глубины покрытия как в данных до проведения обогащения, так и данных после проведения обогащения.
Ближайшими аналогами предлагаемого способа являются:
- Заявка на изобретение №2020114321 от 21.04.2020 «Способ выявления вариаций и изменений числа копий в генах BRCA1 и BRCA2 по данным таргетного массового параллельного секвенирования генома». Предложен способ выявления вариаций и изменений числа копий в генах BRCA1 и BRCA2.
Однако описанный способ обеспечивает выявление вариаций числа копий лишь определенного региона геномной ДНК (в генах BRCA1 и BRCA2).
- Заявка на изобретение RU 2014134175/10А от 20.01.2012 «Способ и система выявления вариации числа копий в геноме» где предложен способ выявление изменений числа копий фрагментов хромосом по данным полногеномного секвенирования.
Однако описанный способ учитывает только изменение глубины покрытия и точки разрыва и не учитывает генотипы вариантов в регионе.
Технический результат состоит в создании нового способа выявления терминальных изменений числа копий и увеличение его точности путем секвенирования полного экзома человека и генома с низким покрытием и обработки получаемых данных.
Технический результат достигается тем, что в способе обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0.1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид, включающий выделение геномной ДНК из лейкоцитов крови пациентов, подготовку геномных библиотек, проведение обогащения целевой ДНК с использованием гибридизационной системы экзомного обогащения, проведение одновременного секвенирования геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS, анализ данных экзомного секвенирования и секвенирования генома с низким покрытием , картирование полученных после секвенирования прочтений на последовательность референсного генома человека с использованием алгоритма BWA-MEM, конвертирование полученного SAM-файла в ВАМ-файл, его сортирование и индексирование функциями программы SAMtools, обработка полученного файла с данными секвенирования генома с низким покрытием с помощью программы QDNASeq, в результате чего получается VCF-файл с данными о нарушениях числа копий, проведение поиска отличий от референсного генома для файла с данными секвенирования экзома с использованием протокола GATK best practices и поиск CNV в экзомных данных с использованием GATK, кроме того проводится оценка покрытия каждой хромосомы, после получения всех данных проводится сопоставление результатов, полученных разными способами, из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
Способ осуществляется следующим образом образом.
Из образцов геномной ДНК, выделенных из лейкоцитов крови пациентов готовят геномные библиотеки, после чего проводят обогащение целевой ДНК с использованием гибридизационной системы обогащения. Преимущественно используется набор для экзомного обогащения IDT xGen™ Exome Hyb Panel v2, однако он может быть заменен на любой другой, который позволяет проводить экзомное обогащение. Далее проводят одновременное секвенирование геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS (например, Novaseq, HiSeq Illumina или DNBSEQ-T7, DNBSEQ-G400, DNBSEQ-G50 BGI). Полученные после секвенирования прочтения картируют на последовательность референсного генома человека с использованием алгоритма BWA mem (http://bio-bwa.sourceforge.net). Полученный SAM-файл конвертируют в ВАМ-файл функцией view программы samtools, а последний сортируют и индексируют функциями sort и index samtools, соответственно. Полученный файл с данными секвенирования генома с низким покрытием обрабатывается с помощью программы QDNASeq https://bioconductor.org/packages/release/bioc/html/QDNAseq.html), в результате чего получается vcf файл с данными о нарушениях числа копий. Для файла с данными секвенирования экзома проводится поиск отличий от референсного генома с использованием протокола GATK best practices (https://gatk.broadinstitute.org/hc/en-us/articles/360035535932-Germline-short-variant-discovery-SNPs-Indels-) и поиск CNV в экзомных данных с использованием GATK, кроме того проводится оценка покрытия каждой хромосомы.
После получения всех данных проводится сопоставление результатов, полученных разными способами. Из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
Например, в случае подозрения на делецию в регионе делеции ожидается отсутствие гетерозиготных отличий от референсного генома. В случае подозрения на дупликацию для гетерозиготных отличий от референсного генома ожидается соотношение аллелей 1:2 вместо обычного для гетерозигот 1:1.
Определяющими преимуществом способа является анализ числа копий всей последовательности генома, а не только определенных регионов, а также секвенирование 2-х типов библиотек, что незначительно влияет на стоимость анализа, но при этом позволяет проводить анализ не только фрагментов полученных после проведения обогащения, что значительно влияет на равномерность представленности фрагментов.
Разработанный подход может быть использован для дополнительного анализа CNV при проведении экзомного исследования.
Пример реализации изобретения
Результаты определения CNV сравнивали с данными стандартного кариотипирования или с данными хромосомного микроматричного анализа.
Образец 1 (фиг. 1, 2)
По данным секвенирования с низким покрытие была обнаружена делеция на 8 хромосоме. Потеря гетерозиготности с данных экзомного секвенирования подтверждает наличие делеции. По данным хромосомного микроматричного анализа наличие делеции так же подтверждено.
Образец 2 (фиг. 3)
По данным секвенирования с низким покрытие была обнаружена трисомия по 21 хромосоме. Изменение соотношения гетерозигных аллелей в данных экзомного секвенирования подтверждает наличие трисомии. По данным стандартного кариотипирования подтверждена трисомия 21.
Образец 3 (фиг. 4)
По данным секвенирования с низким покрытием было обнаружено нарушение числа копий половых хромосом (2 копии X хромосомы и 1 копия Y хромосомы). Наличие гетерозигных аллелей на X хромосоме в данных экзомного секвенирования подтверждает наличие 2-х копий X хромосомы, а наличие покрытия целевых регионов Y хромосомы подтверждает мужской пол. По данным кариотипирования подтверждено наличие синдрома Клайенфельтера.
Claims (1)
- Способ обнаружения вариаций числа копий в образце по данным одновременного секвенирования полного экзома человека и секвенирования генома с низким покрытием не менее 0,1 прочтений на нуклеотид и не более 5 прочтений на нуклеотид, включающий выделение геномной ДНК из лейкоцитов крови пациентов, подготовку геномных библиотек, проведение обогащения целевой ДНК с использованием гибридизационной системы экзомного обогащения, проведение одновременного секвенирования геномной библиотеки с низким покрытием и экзомной библиотеки с обычным покрытием на приборе для проведения NGS, анализ данных экзомного секвенирования и секвенирования генома с низким покрытием, картирование полученных после секвенирования прочтений на последовательность референсного генома человека с использованием алгоритма BWA-MEM, конвертирование полученного SAM-файла в ВАМ-файл, его сортирование и индексирование функциями программы SAMtools, обработку полученного файла с данными секвенирования генома с низким покрытием с помощью программы QDNASeq, в результате чего получается VCF-файл с данными о нарушениях числа копий, проведение поиска отличий от референсного генома для файла с данными секвенирования экзома с использованием протокола GATK best practices и поиск CNV в экзомных данных с использованием GATK, кроме того, проводится оценка покрытия каждой хромосомы, после получения всех данных проводится сопоставление результатов, полученных разными способами, из всех потенциальных CNV оставляют только те, данные которых не противоречат друг другу по результатам хотя бы 2-х методов.
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2822040C1 true RU2822040C1 (ru) | 2024-06-28 |
Family
ID=
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2593708C2 (ru) * | 2012-01-20 | 2016-08-10 | БГИ Диагносис Ко., Лтд. | Способ и система выявления вариации числа копий в геноме |
| CN108292327A (zh) * | 2015-11-18 | 2018-07-17 | 索菲亚遗传股份有限公司 | 下一代测序中检测拷贝数变异的方法 |
| US20200270682A1 (en) * | 2015-07-08 | 2020-08-27 | Quest Diagnostics Investments Incorporated | Detecting genetic copy number variation |
| US20220215900A1 (en) * | 2021-01-07 | 2022-07-07 | Tempus Labs, Inc. | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics |
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2593708C2 (ru) * | 2012-01-20 | 2016-08-10 | БГИ Диагносис Ко., Лтд. | Способ и система выявления вариации числа копий в геноме |
| US20200270682A1 (en) * | 2015-07-08 | 2020-08-27 | Quest Diagnostics Investments Incorporated | Detecting genetic copy number variation |
| CN108292327A (zh) * | 2015-11-18 | 2018-07-17 | 索菲亚遗传股份有限公司 | 下一代测序中检测拷贝数变异的方法 |
| US20220215900A1 (en) * | 2021-01-07 | 2022-07-07 | Tempus Labs, Inc. | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Villani et al. | The clinical utility of integrative genomics in childhood cancer extends beyond targetable mutations | |
| EP3274475B1 (en) | Alignment and variant sequencing analysis pipeline | |
| US11319586B2 (en) | Single-molecule sequencing of plasma DNA | |
| WO2017045654A1 (zh) | 确定受体cfDNA样本中供体来源cfDNA比例的方法 | |
| CN113096728B (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
| Lange et al. | Analysis pipelines for cancer genome sequencing in mice | |
| KR20220012849A (ko) | 단일 세포 유전 구조 변이의 포괄적인 검출 | |
| CN110168648A (zh) | 序列变异识别的验证方法和系统 | |
| EA033752B1 (ru) | Способ определения по меньшей мере части генома плода на основе анализа материнского биологического образца | |
| WO2018090991A1 (en) | Universal haplotype-based noninvasive prenatal testing for single gene diseases | |
| Ma et al. | The analysis of ChIP-Seq data | |
| Engelbrecht et al. | Addressing technical pitfalls in pursuit of molecular factors that mediate immunoglobulin gene regulation | |
| CN111433855A (zh) | 筛查系统和方法 | |
| RU2822040C1 (ru) | Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием | |
| Hung et al. | Genetic diversity and structural complexity of the killer-cell immunoglobulin-like receptor gene complex: A comprehensive analysis using human pangenome assemblies | |
| JP2022549823A (ja) | キットおよびキットの使用方法 | |
| JP2025514547A (ja) | 遺伝子疾患の診断及び管理のための片親起源疾患対立遺伝子検出のための方法及び装置 | |
| Esim et al. | Determination of malignant melanoma by analysis of variation values | |
| Ma et al. | Navigating web-based resources for genetic testing of chromosome abnormalities, CNVs and gene mutations | |
| Foltz et al. | Somatic mutation phasing and haplotype extension using linked-reads in multiple myeloma | |
| Silva et al. | Comparative analysis of hybrid-SNP microarray and nanopore sequencing for detection of large-sized copy number variants in the human genome | |
| Caggiano et al. | Epigenetic profiles of tissue informative CpGs inform ALS disease status and progression | |
| Arres et al. | Assessing the readiness of Oxford Nanopore sequencing for clinical genomics applications | |
| Yu | Analysis of consensus genome-wide expression-QTLS and their relationships to human complex trait diseases | |
| Sood | Bioinformatic analysis of human Next Generation Sequencing data; extracting additional information, optimising mapping and variant calling, and application in a rare disease |