[go: up one dir, main page]

RU2023116499A - A SEQUENCE GRAPH-BASED TOOL FOR DETERMINING VARIATION IN SHORT TANDEM REPEAT AREAS - Google Patents

A SEQUENCE GRAPH-BASED TOOL FOR DETERMINING VARIATION IN SHORT TANDEM REPEAT AREAS Download PDF

Info

Publication number
RU2023116499A
RU2023116499A RU2023116499A RU2023116499A RU2023116499A RU 2023116499 A RU2023116499 A RU 2023116499A RU 2023116499 A RU2023116499 A RU 2023116499A RU 2023116499 A RU2023116499 A RU 2023116499A RU 2023116499 A RU2023116499 A RU 2023116499A
Authority
RU
Russia
Prior art keywords
reads
sequence
repeat
repeats
graph
Prior art date
Application number
RU2023116499A
Other languages
Russian (ru)
Other versions
RU2825664C2 (en
Inventor
Егор ДОЛЖЕНКО
Майкл Э. ЭБЕРЛЕ
Original Assignee
Иллумина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллумина, Инк. filed Critical Иллумина, Инк.
Publication of RU2023116499A publication Critical patent/RU2023116499A/en
Application granted granted Critical
Publication of RU2825664C2 publication Critical patent/RU2825664C2/en

Links

Claims (70)

1. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для генотипирования одной или более последовательностей повторов, каждая из которых содержит одну или более подпоследовательностей повторов, включающий:1. A method implemented using a computer equipped with one or more processors and system memory for genotyping one or more repeat sequences, each of which contains one or more repeat subsequences, including: получение графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов; и obtaining a sequence graph, where the sequence graph has a graph data structure with vertices representing nucleotide sequences, and directed edges connect the vertices, and the sequence graph contains one or more of its own simple cycles, and each own simple cycle is a subsequence of repetitions; And выравнивание с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности.alignment using one or more processors of reads of the sequence of the test sample with one or more sequences of repetitions, each of which is represented by a sequence graph. 2. Способ по п. 1, где каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.2. The method of claim 1, wherein each subsequence of repeats contains repeats of a repeating unit of one or more nucleotides. 3. Способ по любому из пп.1 или 2, где последовательность повторов из одной или более последовательностей повторов содержит конкретное повторяющееся звено, содержащее по меньшей мере один частично определенный нуклеотид. 3. The method according to any one of claims 1 or 2, wherein the repeat sequence of one or more repeat sequences contains a specific repeat unit containing at least one partially defined nucleotide. 4. Способ по п. 3, в котором конкретное повторяющееся звено содержит вырожденные кодоны.4. The method of claim 3, wherein the particular repeat unit contains degenerate codons. 5. Способ по любому из пп. 1-4, в котором один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более повторяющихся подпоследовательностей.5. The method according to any one of paragraphs. 1-4, in which one or more eigensimple loops contain two or more eigensimple loops representing two or more repeating subsequences. 6. Способ по любому из пп. 1-5, в котором граф последовательности дополнительно содержит два или более альтернативных путей двух или более аллелей.6. The method according to any one of paragraphs. 1-5, wherein the sequence graph further comprises two or more alternative paths for two or more alleles. 7. Способ по п. 6, в котором два или более аллеля содержат делецию или замену. 7. The method of claim 6, wherein two or more alleles contain a deletion or substitution. 8. Способ по п. 6, в котором замена содержит однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП).8. The method of claim 6 wherein the replacement comprises a single nucleotide variant (SNP) or a single nucleotide polymorphism (SNP). 9. Способ по п. 6, дополнительно включающий в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. 9. The method of claim 6, further comprising genotyping two or more alleles using sequence reads aligned with two or more alternative pathways. 10. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для характеристики экспансии повторов, где способ включает:10. A method implemented using a computer equipped with one or more processors and system memory to characterize the expansion of repeats, where the method includes: сбор с применением одного или более процессоров прочтений последовательности исследуемого образца, где прочтения последовательности содержат парные концевые прочтения; collecting, using one or more processors, sequence reads of the test sample, where the sequence reads contain paired end reads; выравнивание с помощью одного или более процессоров прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; aligning one or more sequence read processors with one or more repeat sequences, each of which is represented by a sequence graph; определение базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; и defining base and anchored reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where anchored reads are unaligned reads that are paired with base reads; And определение вероятности экспансии повторов в исследуемом образце на основании определенных закрепленных прочтений, по меньшей мере, частично. determining the probability of expansion of repeats in the test sample based on certain anchored readings, at least in part. 11. Способ по п. 10, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов. 11. The method of claim 10, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeat unit of one or more nucleotides. 12. Способ по любому из пп. 10 или 11, в котором базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов.12. The method according to any one of paragraphs. 10 or 11, in which base reads are aligned to within about 5 kb. repeat sequences. 13. Способ по любому из пп. 10-12, в котором невыровненные прочтения содержат прочтения, которые не могут быть выровнены или выравненные с графом последовательности с по меньшей мере одним несовпадением.13. The method according to any one of paragraphs. 10-12, in which the misaligned reads contain reads that cannot be aligned or graph-aligned sequences with at least one mismatch. 14. Способ по любому из пп. 10-13, где вероятность экспансии повторов определяют на основании определенных базовых прочтений, а также определенных закрепленных прочтений.14. The method according to any one of paragraphs. 10-13, where repeat expansion probability is determined based on certain baseline reads as well as certain anchored reads. 15. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для выявления экспансии повторов, где способ включает:15. A method implemented using a computer equipped with one or more processors and system memory to detect repeat expansion, wherein the method includes: выравнивание с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности, где прочтения последовательности содержат парные концевые прочтения;aligning, with one or more processors, the test sample sequence reads with one or more repeat sequences, each of which is represented by a sequence graph, where the sequence reads contain paired end reads; определение базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; defining base and anchored reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where anchored reads are unaligned reads that are paired with base reads; определение числа прочтений большого объема, связанных с исследуемым образцом, где число прочтений большого объема соответствует числу базовых прочтений и/или закрепленных прочтений, которые имеют повторы, количество которых превышает пороговое значение; иdetermining a number of high volume reads associated with the test sample, where the number of high volume reads corresponds to the number of base reads and/or sticky reads that have repeats greater than a threshold value; And определение присутствия экспансии повторов в исследуемом образце с учетом числа прочтений большого объема, привышающего критерий распознавания.determination of the presence of expansion of repeats in the test sample, taking into account the number of reads of a large volume, which exceeds the recognition criterion. 16. Способ по п. 15, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.16. The method of claim 15, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats comprising repeats of a repeat unit of one or more nucleotides. 17. Способ по любому из пп. 15 или 16, в котором базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов.17. The method according to any one of paragraphs. 15 or 16, in which base reads are aligned to within about 5 kb. repeat sequences. 18. Способ по любому из пп. 15-17, в котором невыровненные прочтения содержат прочтения, которые не могут быть выровнены или выравненные с графом последовательности с по меньшей мере одним несовпадением.18. The method according to any one of paragraphs. 15-17, in which the misaligned reads contain reads that cannot be aligned or graph-aligned sequences with at least one mismatch. 19. Способ по любому из пп. 15-18, дополнительно включающий фильтрацию ошибочных и низкокачественных прочтений до выравнивания прочтений последовательности на стадии (a).19. The method according to any one of paragraphs. 15-18, further comprising filtering out erroneous and low quality reads prior to aligning the sequence reads in step (a). 20. Способ по любому из пп. 15-19, где прочтение большого объема определяют на основании максимального числа повторов определенной последовательности повторов для прочтения, имеющего определенную длину прочтения.20. The method according to any one of paragraphs. 15-19, where a large volume read is determined based on the maximum number of repeats of a specific repeat sequence for a read having a specific read length. 21. Способ по п. 20, где прочтение большого объема определяют с учетом числа повторов, количество которых превышает по меньшей мере около 80% от максимального числа повторов.21. The method of claim 20, wherein the high volume reading is determined by the number of repetitions, the number of which exceeds at least about 80% of the maximum number of repetitions. 22. Способ по любому из пп. 15-21, где критерий распознавания получают на основе распределения прочтений большого объема одного или более контрольных образцов.22. The method according to any one of paragraphs. 15-21, where the recognition criterion is obtained based on the distribution of large volume reads of one or more control samples. 23. Способ по любому из пп. 15-22, где критерий распознавания определяют на основании глубины секвенирования.23. The method according to any one of paragraphs. 15-22 where the recognition criterion is determined based on the sequencing depth. 24. Способ по п. 23, где глубина секвенирования указывает на среднее расстояние между прочтениями в выровненном геноме.24. The method of claim 23, wherein the sequencing depth indicates the average distance between reads in an aligned genome. 25. Способ, реализованный для характеристики последовательности повторов, где способ включает:25. A method implemented to characterize a sequence of repeats, where the method includes: получение на первом вычислительном устройстве со второго вычислительного устройства данных, указывающих на прочтения последовательности исследуемого образца;receiving, on the first computing device, from the second computing device, data indicative of reads of the test sample sequence; выравнивание с помощью одного или более процессоров первого вычислительного устройства прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; aligning, with one or more processors of the first computing device, the sequence reads with one or more repetition sequences, each of which is represented by a sequence graph; определение с помощью одного или более процессоров первого вычислительного устройства информации, указывающей на экспансии повторов исследуемого образца, и/или информации генотипа одной или более последовательностей повторов исследуемого образца на основании выравнивания прочтений последовательности с одной или более последовательностей повторов графа последовательности; иdetermining, by one or more processors of the first computing device, information indicative of test sample repeat expansions and/or genotype information of one or more test sample repeat sequences based on alignment of sequence reads with one or more repeat sequences of the sequence graph; And перенес информации, указывающей на экспансии повторов, и/или информации генотипа в третье устройство.transferred information indicative of repeat expansions and/or genotype information to the third device. 26. Способ по п. 25, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.26. The method of claim 25, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides. 27. Способ по любому из пп. 25 или 26, где второе вычислительное устройство содержит секвенатор.27. The method according to any one of paragraphs. 25 or 26, where the second computing device includes a sequencer. 28. Способ по любому из пп. 25 или 26, где второе вычислительное устройство содержит базу данных.28. The method according to any one of paragraphs. 25 or 26, where the second computing device contains a database. 29. Способ по любому из пп. 25-28, где первое вычислительное устройство удалено от второго вычислительного устройства и/или третьего вычислительного устройства.29. The method according to any one of paragraphs. 25-28 where the first computing device is remote from the second computing device and/or the third computing device. 30. Способ по любому из пп. 25-29, где информация, указывающая на экспансии повторов, и/или информация генотипа включает один или более диагнозов пациента, связанных с исследуемым образцом.30. The method according to any one of paragraphs. 25-29, where information indicative of repeat expansions and/or genotype information includes one or more patient diagnoses associated with the test sample. 31. Система содержащая:31. System containing: системную память; и system memory; And один или более процессоров, выполненных с возможностью:one or more processors configured to: получения графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов; иobtaining a sequence graph, where the sequence graph has a graph data structure with vertices representing nucleotide sequences, and directed edges connect the vertices, and wherein the sequence graph contains one or more of its own simple cycles, and each own simple cycle is a subsequence of repetitions; And выравнивания с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом.alignment using one or more processors reads the sequence of the test sample with one or more sequences of repetitions, each of which is represented by a graph. 32. Система содержащая:32. System containing: системную память; и system memory; And один или более процессоров, выполненных с возможностью:one or more processors configured to: сбора с применением одного или более процессоров прочтений последовательности исследуемого образца, где прочтения последовательности содержат парные концевые прочтения; collecting, using one or more processors, sequence reads of the test sample, where the sequence reads contain paired end reads; выравнивания с помощью одного или более процессоров прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности;aligning one or more sequence read processors with one or more repeat sequences, each of which is represented by a sequence graph; определения базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; иdefining base and sticky reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where sticky reads are unaligned reads that are paired with base reads; And определения вероятности экспансии повторов в исследуемом образце на основании определенных закрепленных прочтений, по меньшей мере.determining the probability of expansion of repeats in the test sample based on certain anchored readings, at least. 33. Система содержащая:33. System containing: системную память; и system memory; And один или более процессоров, выполненных с возможностью:one or more processors configured to: выравнивания с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности, где прочтения последовательности содержат парные концевые прочтения;aligning, with one or more processors, the test sample sequence reads with one or more repeat sequences, each of which is represented by a sequence graph, where the sequence reads contain paired end reads; определения базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; defining base and sticky reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where sticky reads are unaligned reads that are paired with base reads; определения числа прочтений большого объема, связанных с исследуемым образцом, где число прочтений большого объема соответствует числу базовых прочтений и/или закрепленных прочтений, которые имеют повторы, количество которых превышает пороговое значение; иdetermining a number of high volume reads associated with the test sample, where the number of high volume reads corresponds to the number of base reads and/or sticky reads that have repeats greater than a threshold value; And определения присутствия экспансии повторов в исследуемом образце с учетом числа прочтений большого объема, привышающего критерий распознавания.determination of the presence of expansion of repeats in the test sample, taking into account the number of readings of a large volume that exceeds the recognition criterion. 34. Система содержащая:34. System containing: системную память; и system memory; And один или более процессоров, выполненных с возможностью:one or more processors configured to: получения на первом вычислительном устройстве со второго вычислительного устройства данных, указывающих на прочтения последовательности исследуемого образца;receiving, on the first computing device, from the second computing device, data indicative of reads of the test sample sequence; выравнивания с помощью одного или более процессоров первого вычислительного устройства прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; alignment using one or more processors of the first computing device readings of the sequence with one or more sequences of repetitions, each of which is represented by a sequence graph; определения с помощью одного или более процессоров первого вычислительного устройства информации, указывающей на экспансии повторов исследуемого образца, и/или информации генотипа одной или более последовательностей повторов исследуемого образца на основании выравнивания прочтений последовательности с одной или более последовательностей повторов графа последовательности; иdetermining, by one or more processors of the first computing device, information indicative of test sample repeat expansions and/or genotype information of one or more test sample repeat sequences based on alignment of sequence reads with one or more repeat sequences of a sequence graph; And перенеса информации, указывающей на экспансии повторов, и/или информации генотипа в третье устройство.transferring information indicative of repeat expansions and/or genotype information to a third device.
RU2023116499A 2019-03-07 2020-03-06 Sequence graph tool for determining variations in regions of short tandem repeats RU2825664C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US62/815,322 2019-03-07

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2021108143A Division RU2799654C2 (en) 2019-03-07 2020-03-06 Sequence graph-based tool for determining variation in short tandem repeat areas

Publications (2)

Publication Number Publication Date
RU2023116499A true RU2023116499A (en) 2023-06-28
RU2825664C2 RU2825664C2 (en) 2024-08-28

Family

ID=

Similar Documents

Publication Publication Date Title
US11155863B2 (en) Sequence assembly
AU2018210188B2 (en) Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US10777301B2 (en) Hierarchical genome assembly method using single long insert library
CN104272311B (en) The data analysis of DNA sequence dna
WO2015051006A2 (en) Phasing and linking processes to identify variations in a genome
EP2856376A1 (en) Determining the clinical significance of variant sequences
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
CN115198023A (en) Hainan cattle liquid phase breeding chip and application thereof
CN108256291A (en) It is a kind of to generate the method with higher confidence level detection in Gene Mutation result
US10152569B2 (en) Algorithms for sequence determinations
CN112384982A (en) Method for fingerprinting a biological sample
RU2023116499A (en) A SEQUENCE GRAPH-BASED TOOL FOR DETERMINING VARIATION IN SHORT TANDEM REPEAT AREAS
CN109321646A (en) The virtual PCR method compared based on NGS read and reference sequences
JP2023060046A (en) Correction of sequence errors induced by deamination
Harris et al. Whole-genome sequencing for rapid and accurate identification of bacterial transmission pathways
CN117672354B (en) Method and apparatus for comparing quality of complete genome assembly of closely related species of mammals
Isakov et al. Deep sequencing data analysis: challenges and solutions
RU2021108143A (en) A SEQUENCE GRAPH-BASED TOOL FOR DETERMINING VARIATION IN SHORT TANDEM REPEAT AREAS
Irizarry et al. Model-Based Quality Assessment and Base-Calling for Second-Generation Sequencing Data
WO2017136606A1 (en) Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation
WO2016141516A1 (en) Method for acquiring specific sequence of offspring, and method and device for detecting denovo mutation of offspring
HK40051826A (en) Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
Sio et al. Mining polymorphic SSRs from individual genome sequences
EP4511838A1 (en) Method and system for detecting tumour presence from mapping metrics of free circulating dna fragments
Lu Correction of DNA Sequencing Data with Spaced Seeds