Claims (70)
1. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для генотипирования одной или более последовательностей повторов, каждая из которых содержит одну или более подпоследовательностей повторов, включающий:1. A method implemented using a computer equipped with one or more processors and system memory for genotyping one or more repeat sequences, each of which contains one or more repeat subsequences, including:
получение графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов; и obtaining a sequence graph, where the sequence graph has a graph data structure with vertices representing nucleotide sequences, and directed edges connect the vertices, and the sequence graph contains one or more of its own simple cycles, and each own simple cycle is a subsequence of repetitions; And
выравнивание с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности.alignment using one or more processors of reads of the sequence of the test sample with one or more sequences of repetitions, each of which is represented by a sequence graph.
2. Способ по п. 1, где каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.2. The method of claim 1, wherein each subsequence of repeats contains repeats of a repeating unit of one or more nucleotides.
3. Способ по любому из пп.1 или 2, где последовательность повторов из одной или более последовательностей повторов содержит конкретное повторяющееся звено, содержащее по меньшей мере один частично определенный нуклеотид. 3. The method according to any one of claims 1 or 2, wherein the repeat sequence of one or more repeat sequences contains a specific repeat unit containing at least one partially defined nucleotide.
4. Способ по п. 3, в котором конкретное повторяющееся звено содержит вырожденные кодоны.4. The method of claim 3, wherein the particular repeat unit contains degenerate codons.
5. Способ по любому из пп. 1-4, в котором один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более повторяющихся подпоследовательностей.5. The method according to any one of paragraphs. 1-4, in which one or more eigensimple loops contain two or more eigensimple loops representing two or more repeating subsequences.
6. Способ по любому из пп. 1-5, в котором граф последовательности дополнительно содержит два или более альтернативных путей двух или более аллелей.6. The method according to any one of paragraphs. 1-5, wherein the sequence graph further comprises two or more alternative paths for two or more alleles.
7. Способ по п. 6, в котором два или более аллеля содержат делецию или замену. 7. The method of claim 6, wherein two or more alleles contain a deletion or substitution.
8. Способ по п. 6, в котором замена содержит однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП).8. The method of claim 6 wherein the replacement comprises a single nucleotide variant (SNP) or a single nucleotide polymorphism (SNP).
9. Способ по п. 6, дополнительно включающий в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. 9. The method of claim 6, further comprising genotyping two or more alleles using sequence reads aligned with two or more alternative pathways.
10. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для характеристики экспансии повторов, где способ включает:10. A method implemented using a computer equipped with one or more processors and system memory to characterize the expansion of repeats, where the method includes:
сбор с применением одного или более процессоров прочтений последовательности исследуемого образца, где прочтения последовательности содержат парные концевые прочтения; collecting, using one or more processors, sequence reads of the test sample, where the sequence reads contain paired end reads;
выравнивание с помощью одного или более процессоров прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; aligning one or more sequence read processors with one or more repeat sequences, each of which is represented by a sequence graph;
определение базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; и defining base and anchored reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where anchored reads are unaligned reads that are paired with base reads; And
определение вероятности экспансии повторов в исследуемом образце на основании определенных закрепленных прочтений, по меньшей мере, частично. determining the probability of expansion of repeats in the test sample based on certain anchored readings, at least in part.
11. Способ по п. 10, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов. 11. The method of claim 10, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeat unit of one or more nucleotides.
12. Способ по любому из пп. 10 или 11, в котором базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов.12. The method according to any one of paragraphs. 10 or 11, in which base reads are aligned to within about 5 kb. repeat sequences.
13. Способ по любому из пп. 10-12, в котором невыровненные прочтения содержат прочтения, которые не могут быть выровнены или выравненные с графом последовательности с по меньшей мере одним несовпадением.13. The method according to any one of paragraphs. 10-12, in which the misaligned reads contain reads that cannot be aligned or graph-aligned sequences with at least one mismatch.
14. Способ по любому из пп. 10-13, где вероятность экспансии повторов определяют на основании определенных базовых прочтений, а также определенных закрепленных прочтений.14. The method according to any one of paragraphs. 10-13, where repeat expansion probability is determined based on certain baseline reads as well as certain anchored reads.
15. Способ, реализованный с применением компьютера, снабженного одним или более процессорами и системной памятью, для выявления экспансии повторов, где способ включает:15. A method implemented using a computer equipped with one or more processors and system memory to detect repeat expansion, wherein the method includes:
выравнивание с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности, где прочтения последовательности содержат парные концевые прочтения;aligning, with one or more processors, the test sample sequence reads with one or more repeat sequences, each of which is represented by a sequence graph, where the sequence reads contain paired end reads;
определение базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; defining base and anchored reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where anchored reads are unaligned reads that are paired with base reads;
определение числа прочтений большого объема, связанных с исследуемым образцом, где число прочтений большого объема соответствует числу базовых прочтений и/или закрепленных прочтений, которые имеют повторы, количество которых превышает пороговое значение; иdetermining a number of high volume reads associated with the test sample, where the number of high volume reads corresponds to the number of base reads and/or sticky reads that have repeats greater than a threshold value; And
определение присутствия экспансии повторов в исследуемом образце с учетом числа прочтений большого объема, привышающего критерий распознавания.determination of the presence of expansion of repeats in the test sample, taking into account the number of reads of a large volume, which exceeds the recognition criterion.
16. Способ по п. 15, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.16. The method of claim 15, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats comprising repeats of a repeat unit of one or more nucleotides.
17. Способ по любому из пп. 15 или 16, в котором базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов.17. The method according to any one of paragraphs. 15 or 16, in which base reads are aligned to within about 5 kb. repeat sequences.
18. Способ по любому из пп. 15-17, в котором невыровненные прочтения содержат прочтения, которые не могут быть выровнены или выравненные с графом последовательности с по меньшей мере одним несовпадением.18. The method according to any one of paragraphs. 15-17, in which the misaligned reads contain reads that cannot be aligned or graph-aligned sequences with at least one mismatch.
19. Способ по любому из пп. 15-18, дополнительно включающий фильтрацию ошибочных и низкокачественных прочтений до выравнивания прочтений последовательности на стадии (a).19. The method according to any one of paragraphs. 15-18, further comprising filtering out erroneous and low quality reads prior to aligning the sequence reads in step (a).
20. Способ по любому из пп. 15-19, где прочтение большого объема определяют на основании максимального числа повторов определенной последовательности повторов для прочтения, имеющего определенную длину прочтения.20. The method according to any one of paragraphs. 15-19, where a large volume read is determined based on the maximum number of repeats of a specific repeat sequence for a read having a specific read length.
21. Способ по п. 20, где прочтение большого объема определяют с учетом числа повторов, количество которых превышает по меньшей мере около 80% от максимального числа повторов.21. The method of claim 20, wherein the high volume reading is determined by the number of repetitions, the number of which exceeds at least about 80% of the maximum number of repetitions.
22. Способ по любому из пп. 15-21, где критерий распознавания получают на основе распределения прочтений большого объема одного или более контрольных образцов.22. The method according to any one of paragraphs. 15-21, where the recognition criterion is obtained based on the distribution of large volume reads of one or more control samples.
23. Способ по любому из пп. 15-22, где критерий распознавания определяют на основании глубины секвенирования.23. The method according to any one of paragraphs. 15-22 where the recognition criterion is determined based on the sequencing depth.
24. Способ по п. 23, где глубина секвенирования указывает на среднее расстояние между прочтениями в выровненном геноме.24. The method of claim 23, wherein the sequencing depth indicates the average distance between reads in an aligned genome.
25. Способ, реализованный для характеристики последовательности повторов, где способ включает:25. A method implemented to characterize a sequence of repeats, where the method includes:
получение на первом вычислительном устройстве со второго вычислительного устройства данных, указывающих на прочтения последовательности исследуемого образца;receiving, on the first computing device, from the second computing device, data indicative of reads of the test sample sequence;
выравнивание с помощью одного или более процессоров первого вычислительного устройства прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; aligning, with one or more processors of the first computing device, the sequence reads with one or more repetition sequences, each of which is represented by a sequence graph;
определение с помощью одного или более процессоров первого вычислительного устройства информации, указывающей на экспансии повторов исследуемого образца, и/или информации генотипа одной или более последовательностей повторов исследуемого образца на основании выравнивания прочтений последовательности с одной или более последовательностей повторов графа последовательности; иdetermining, by one or more processors of the first computing device, information indicative of test sample repeat expansions and/or genotype information of one or more test sample repeat sequences based on alignment of sequence reads with one or more repeat sequences of the sequence graph; And
перенес информации, указывающей на экспансии повторов, и/или информации генотипа в третье устройство.transferred information indicative of repeat expansions and/or genotype information to the third device.
26. Способ по п. 25, где граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.26. The method of claim 25, wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides.
27. Способ по любому из пп. 25 или 26, где второе вычислительное устройство содержит секвенатор.27. The method according to any one of paragraphs. 25 or 26, where the second computing device includes a sequencer.
28. Способ по любому из пп. 25 или 26, где второе вычислительное устройство содержит базу данных.28. The method according to any one of paragraphs. 25 or 26, where the second computing device contains a database.
29. Способ по любому из пп. 25-28, где первое вычислительное устройство удалено от второго вычислительного устройства и/или третьего вычислительного устройства.29. The method according to any one of paragraphs. 25-28 where the first computing device is remote from the second computing device and/or the third computing device.
30. Способ по любому из пп. 25-29, где информация, указывающая на экспансии повторов, и/или информация генотипа включает один или более диагнозов пациента, связанных с исследуемым образцом.30. The method according to any one of paragraphs. 25-29, where information indicative of repeat expansions and/or genotype information includes one or more patient diagnoses associated with the test sample.
31. Система содержащая:31. System containing:
системную память; и system memory; And
один или более процессоров, выполненных с возможностью:one or more processors configured to:
получения графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов; иobtaining a sequence graph, where the sequence graph has a graph data structure with vertices representing nucleotide sequences, and directed edges connect the vertices, and wherein the sequence graph contains one or more of its own simple cycles, and each own simple cycle is a subsequence of repetitions; And
выравнивания с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом.alignment using one or more processors reads the sequence of the test sample with one or more sequences of repetitions, each of which is represented by a graph.
32. Система содержащая:32. System containing:
системную память; и system memory; And
один или более процессоров, выполненных с возможностью:one or more processors configured to:
сбора с применением одного или более процессоров прочтений последовательности исследуемого образца, где прочтения последовательности содержат парные концевые прочтения; collecting, using one or more processors, sequence reads of the test sample, where the sequence reads contain paired end reads;
выравнивания с помощью одного или более процессоров прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности;aligning one or more sequence read processors with one or more repeat sequences, each of which is represented by a sequence graph;
определения базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; иdefining base and sticky reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where sticky reads are unaligned reads that are paired with base reads; And
определения вероятности экспансии повторов в исследуемом образце на основании определенных закрепленных прочтений, по меньшей мере.determining the probability of expansion of repeats in the test sample based on certain anchored readings, at least.
33. Система содержащая:33. System containing:
системную память; и system memory; And
один или более процессоров, выполненных с возможностью:one or more processors configured to:
выравнивания с помощью одного или более процессоров прочтений последовательности исследуемого образца с одной или более последовательностей повторов, каждая из которых представлена графом последовательности, где прочтения последовательности содержат парные концевые прочтения;aligning, with one or more processors, the test sample sequence reads with one or more repeat sequences, each of which is represented by a sequence graph, where the sequence reads contain paired end reads;
определения базовых и закрепленных прочтений в парных концевых прочтениях, где базовые прочтения представляют собой прочтения, выровненные с последовательностью повторов из одной или более последовательностей повторов или с пространством вблизи нее, и где закрепленные прочтения являются невыровненными прочтениями, которые спаренными с базовыми прочтениями; defining base and sticky reads in paired end reads, where base reads are reads aligned with or with a space near the repeat sequence of one or more repeat sequences, and where sticky reads are unaligned reads that are paired with base reads;
определения числа прочтений большого объема, связанных с исследуемым образцом, где число прочтений большого объема соответствует числу базовых прочтений и/или закрепленных прочтений, которые имеют повторы, количество которых превышает пороговое значение; иdetermining a number of high volume reads associated with the test sample, where the number of high volume reads corresponds to the number of base reads and/or sticky reads that have repeats greater than a threshold value; And
определения присутствия экспансии повторов в исследуемом образце с учетом числа прочтений большого объема, привышающего критерий распознавания.determination of the presence of expansion of repeats in the test sample, taking into account the number of readings of a large volume that exceeds the recognition criterion.
34. Система содержащая:34. System containing:
системную память; и system memory; And
один или более процессоров, выполненных с возможностью:one or more processors configured to:
получения на первом вычислительном устройстве со второго вычислительного устройства данных, указывающих на прочтения последовательности исследуемого образца;receiving, on the first computing device, from the second computing device, data indicative of reads of the test sample sequence;
выравнивания с помощью одного или более процессоров первого вычислительного устройства прочтений последовательности с одной или более последовательностей повторов, каждая из которых представлена графом последовательности; alignment using one or more processors of the first computing device readings of the sequence with one or more sequences of repetitions, each of which is represented by a sequence graph;
определения с помощью одного или более процессоров первого вычислительного устройства информации, указывающей на экспансии повторов исследуемого образца, и/или информации генотипа одной или более последовательностей повторов исследуемого образца на основании выравнивания прочтений последовательности с одной или более последовательностей повторов графа последовательности; иdetermining, by one or more processors of the first computing device, information indicative of test sample repeat expansions and/or genotype information of one or more test sample repeat sequences based on alignment of sequence reads with one or more repeat sequences of a sequence graph; And
перенеса информации, указывающей на экспансии повторов, и/или информации генотипа в третье устройство.transferring information indicative of repeat expansions and/or genotype information to a third device.