[go: up one dir, main page]

RU2825664C2 - Sequence graph tool for determining variations in regions of short tandem repeats - Google Patents

Sequence graph tool for determining variations in regions of short tandem repeats Download PDF

Info

Publication number
RU2825664C2
RU2825664C2 RU2023116499A RU2023116499A RU2825664C2 RU 2825664 C2 RU2825664 C2 RU 2825664C2 RU 2023116499 A RU2023116499 A RU 2023116499A RU 2023116499 A RU2023116499 A RU 2023116499A RU 2825664 C2 RU2825664 C2 RU 2825664C2
Authority
RU
Russia
Prior art keywords
sequence
reads
repeat
sequences
sequencing
Prior art date
Application number
RU2023116499A
Other languages
Russian (ru)
Other versions
RU2023116499A (en
Inventor
Егор ДОЛЖЕНКО
Майкл Э. ЭБЕРЛЕ
Original Assignee
Иллумина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллумина, Инк. filed Critical Иллумина, Инк.
Publication of RU2023116499A publication Critical patent/RU2023116499A/en
Application granted granted Critical
Publication of RU2825664C2 publication Critical patent/RU2825664C2/en

Links

Images

Abstract

FIELD: biotechnology; medicine.
SUBSTANCE: described is a method for sequencing genomic loci comprising two or more repeat sequences. Method is realized using a computer equipped with one or more processors and system memory for genotyping one or more repeat sequences. Each of the sequences contains one or more sub-sequences of repeats. Method includes: obtaining a sequence graph, where the sequence graph has a graph data structure with vertices representing nucleotide sequences, and the directed edges connect the vertices, and wherein the sequence graph contains two or more proper simple cycles, wherein each proper simple cycle is a subsequence of repeats; alignment, using one or more processors, of reading sequences of the analyzed sample on a reference genome to determine genomic coordinates of reading sequences and selecting a subset of reads of sequences; and aligning, using one or more processors, a selected subset of reads of sequences with two or more sequences of repetitions, represented by a sequence graph representing a genomic locus. Also disclosed is a corresponding system for sequencing genomic loci, including two or more sequences of repeats.
EFFECT: invention enables to genotype sequences of repeats, including short tandem repeats (CTR), which are significant from a medical point of view.
10 cl, 7 dwg, 1 tbl

Description

ВКЛЮЧЕНИЕ ПУТЕМ ССЫЛКИINCORPORATION BY LINK

[0001] Форма запроса PCT подается одновременно с данной спецификацией в рамках настоящей заявки. Каждая заявка, в отношении которой в настоящей заявке испрашивается преимущество или приоритет, как указано в одновременно поданной форме запроса РСТ, полностью и для всех целей включена в настоящий документ путем ссылки. [0001] A PCT Request Form is filed concurrently with this specification in this application. Each application for which benefit or priority is claimed in this application as indicated in a concurrently filed PCT Request Form is incorporated herein by reference in its entirety and for all purposes.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯPREREQUISITES FOR THE CREATION OF THE INVENTION

[0002] Экспансии повторов представляют собой особый класс микросателлитных и минисателлитных вариантов, включающих полиморфизмы коротких тандемных повторов (КТП). Экспансии повторов также называются динамическими мутациями вследствие их нестабильности в случаях, когда короткие тандемные повторы расширяются сверх определенных размеров. Генетические заболевания, вызванные нестабильными экспансиями повторов, включают в себя, помимо прочего, синдром ломкой X-хромосомы (FXS), болезнь Хантингтона и боковой амиотрофический склероз (АБС). [0002] Repeat expansions are a special class of microsatellite and minisatellite variants involving short tandem repeat (STR) polymorphisms. Repeat expansions are also called dynamic mutations due to their instability, where the STRs expand beyond a certain size. Genetic diseases caused by unstable repeat expansions include, but are not limited to, fragile X syndrome (FXS), Huntington's disease, and amyotrophic lateral sclerosis (ALS).

[0003] Выявление экспансий повторов важно для диагностирования и лечения определенных генетических заболеваний. Однако сложно определить последовательности повторов с помощью коротких прочтений, которые не полностью охватывают последовательность повторов. Таким образом, желательно разработать способы, в которых используются короткие прочтения, с целью выявления значимых с медицинской точки зрения экспансий повторов. [0003] Detection of repeat expansions is important for the diagnosis and treatment of certain genetic diseases. However, it is difficult to determine repeat sequences using short reads that do not completely cover the repeat sequence. Thus, it is desirable to develop methods that use short reads to detect medically significant repeat expansions.

ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0004] Описанные варианты реализации относятся к способам, устройствам, системам и компьютерным программным продуктам, предназначенным для секвенирования геномных локусов, включая последовательности повторов, в том числе последовательности коротких тандемных повторов, которые могут быт связаны с генетическими расстройствами. В число способов входит выравнивание прочтений с графами последовательностей, каждый из которых представляет собой геномный локус, а также использование выровненных прочтений для генотипирования одной или более последовательностей повторов в геномном локусе. Графы последовательностей представляют собой направленные графы, каждый из которых включает по меньшей мере один собственный простой цикл, представляющий последовательность повторов. [0004] The disclosed embodiments relate to methods, devices, systems, and computer program products for sequencing genomic loci, including repeat sequences, including short tandem repeat sequences, which may be associated with genetic disorders. The methods include aligning reads to sequence graphs, each of which represents a genomic locus, and using the aligned reads to genotype one or more repeat sequences at the genomic locus. The sequence graphs are directed graphs, each of which includes at least one proper simple cycle representing a repeat sequence.

[0005] В первом аспекте описания предложены способы генотипирования геномных локусов с помощью компьютера, включая последовательности повторов. Способы реализуют с применением компьютера, включающего в себя один или более процессоров и системную память. Данные способы могут применяться для генотипирования одной или более последовательностей повторов, каждая из которых содержит одну или более подпоследовательностей повторов. Способы включают: (a) сбор прочтений последовательности исследуемого образца из базы данных с применением одного или более процессоров; (b) выравнивание с помощью одного или более процессоров, прочтение одной или более последовательностей повторов, каждая из которых представлена графом последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, при этом каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одним или более процессорами одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выравненных с одной или более последовательностями повторов. [0005] In a first aspect of the description, methods are provided for genotyping genomic loci using a computer, including repeat sequences. The methods are implemented using a computer including one or more processors and a system memory. These methods can be used to genotype one or more repeat sequences, each of which comprises one or more repeat subsequences. The methods include: (a) collecting sequence reads of a test sample from a database using one or more processors; (b) aligning, using the one or more processors, the reads of the one or more repeat sequences, each of which is represented by a sequence graph, wherein the sequence graph has a directed graph data structure, wherein the nodes represent nucleotide sequences and directed edges connect the nodes, and wherein the sequence graph contains one or more proper simple cycles, wherein each proper simple cycle represents a repeat subsequence, wherein each repeat subsequence contains repeats of a repeating unit of one or more nucleotides; and (c) determining, by one or more processors, one or more genotypes of one or more repeat sequences using sequence reads aligned to the one or more repeat sequences.

[0006] В некоторых вариантах реализации последовательность повторов из одной или более последовательностей повторов содержит конкретное повторяющееся звено, содержащее по меньшей мере один частично определенный нуклеотид. В некоторых вариантах реализации конкретное повторяющееся звено содержит вырожденные кодоны. [0006] In some embodiments, a repeat sequence of one or more repeat sequences comprises a specific repeat unit comprising at least one partially defined nucleotide. In some embodiments, the specific repeat unit comprises degenerate codons.

[0007] В некоторых вариантах реализации один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более подпоследовательностей повторов. [0007] In some embodiments, one or more of the native simple cycles comprise two or more native simple cycles representing two or more repeat subsequences.

[0008] В некоторых вариантах реализации граф последовательности дополнительно содержит два или более альтернативных путей для двух или более аллелей. В некоторых вариантах реализации два или более аллеля содержат делецию или замену. В некоторых вариантах реализации замена включает в себя однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП). В некоторых вариантах реализации способ дополнительно включает в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. В некоторых вариантах реализации генотипирование двух или более аллелей включает в себя охват двух или более альтернативных путей к вероятностной модели для определения вероятностей двух или более аллелей. В некоторых вариантах реализации вероятностная модель моделирует вероятность аллеля в зависимости от охвата аллеля, причем функция выбрана из распределения Пуассона, отрицательного биномиального распределения, биномиального распределения или бета-биномиального распределения. В некоторых вариантах реализации параметр скорости распределения Пуассона оценивают по длине прочтения и средней глубине, наблюдаемой в геномном локусе. [0008] In some embodiments, the sequence graph further comprises two or more alternative pathways for the two or more alleles. In some embodiments, the two or more alleles comprise a deletion or a substitution. In some embodiments, the substitution comprises a single nucleotide variant (SNP) or a single nucleotide polymorphism (SNP). In some embodiments, the method further comprises genotyping the two or more alleles using sequence reads aligned to the two or more alternative pathways. In some embodiments, genotyping the two or more alleles comprises applying the coverage of the two or more alternative pathways to a probability model to determine the probabilities of the two or more alleles. In some embodiments, the probability model models the probability of an allele as a function of the coverage of the allele, wherein the function is selected from a Poisson distribution, a negative binomial distribution, a binomial distribution, or a beta-binomial distribution. In some embodiments, the rate parameter of the Poisson distribution is estimated from the read length and the average depth observed at the genomic locus.

[0009] В некоторых вариантах реализации способ дополнительно включает выравнивание, до (b), прочтения последовательности по эталонному геному для определения геномных координат прочтения последовательности, а также выбор подмножества прочтения последовательности по мере выравнивания прочтения последовательности с одной или более последовательностями повторов, каждая из которых представлена графом последовательности. В некоторых вариантах реализации подмножество прочтений последовательностей включает в себя прочтения, выровненные с областью, представленной графом последовательности, или с пространством вблизи нее. В некоторых вариантах реализации подмножество прочтений последовательностей включает в себя невыровненные прочтения, сопряженные прочтения которых сопоставляются с областью, представленной графом последовательности, или с пространством вблизи нее. В некоторых вариантах реализации подмножество прочтений последовательностей содержит прочтение последовательностей, выровненное с одной или более нецелевыми областями, которые являются известными горячими точками для прочтения неправильного выравнивания. [0009] In some embodiments, the method further comprises aligning, prior to (b), the sequence read to a reference genome to determine genomic coordinates of the sequence read, and selecting a subset of the sequence read as the sequence read aligns to one or more repeat sequences, each of which is represented by a sequence graph. In some embodiments, the subset of sequence reads includes reads aligned to the region represented by the sequence graph or a space near it. In some embodiments, the subset of sequence reads includes unaligned reads whose mate reads map to the region represented by the sequence graph or a space near it. In some embodiments, the subset of sequence reads comprises a sequence read aligned to one or more off-target regions that are known hotspots for misaligned reads.

[0010] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя: поиск соответствия кмер между прочтением последовательности и путем графа последовательности; и расширение соответствия кмер до полного выравнивания узлов и ребер графа последовательностей, включая один или более собственных простых циклов. [0010] In some embodiments, aligning a sequence read with a sequence graph includes: finding a kmer correspondence between the sequence read and a sequence graph path; and extending the kmer correspondence to a complete alignment of the nodes and edges of the sequence graph, including one or more proper simple cycles.

[0011] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя сокращение графа путем удаления концов выравниваний с низким уровнем достоверности. [0011] In some embodiments, aligning a sequence read to a sequence graph includes pruning the graph by removing the ends of low confidence alignments.

[0012] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает объединение выравниваний путем: выравнивания подпоследовательностей прочтения с графом последовательности; и объединения выравниваний подпоследовательностей для полного выравнивания прочтения последовательности. [0012] In some embodiments, aligning a sequence read to a sequence graph includes combining alignments by: aligning subsequences of the read to the sequence graph; and combining the subsequence alignments to fully align the sequence read.

[0013] В некоторых вариантах реализации способ дополнительно включает в себя генерирование графа последовательности на основании спецификации локуса, включающей в себя структуру геномного локуса. [0013] In some embodiments, the method further includes generating a sequence graph based on a locus specification including the structure of the genomic locus.

[0014] В некоторых вариантах реализации прочтения последовательностей включают в себя парные концевые прочтения, а операция (c) включает в себя следующие составляющие: (i) определение базовых и закрепленных прочтений в парных концевых прочтениях, причем базовые прочтения являются выровненными с одной или более последовательностями повторов или с пространством рядом с ними, а закрепленные прочтения представляют собой невыровненные прочтения, которые сопряжены с закрепленными прочтениями; и (ii) определение одного или более генотипов для одной или более последовательностей повторов с применением по меньшей мере закрепленных прочтений. [0014] In some embodiments, the sequence reads include paired end reads, and operation (c) includes the following components: (i) determining base and anchored reads in the paired end reads, wherein the base reads are aligned to one or more repeat sequences or to a space adjacent thereto, and the anchored reads are unaligned reads that are paired with the anchored reads; and (ii) determining one or more genotypes for the one or more repeat sequences using at least the anchored reads.

[0015] В некоторых вариантах реализации операция (ii) включает в себя определение одного или более генотипов для одной или более последовательностей повторов с использованием базовых прочтений, а также закрепленных прочтений. В некоторых вариантах реализации базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов. В некоторых вариантах реализации невыровненные прочтения включают в себя прочтения, которые не могут быть выровнены или являются плохо выровненными с графом последовательности. [0015] In some embodiments, operation (ii) includes determining one or more genotypes for one or more repeat sequences using base reads as well as anchored reads. In some embodiments, base reads are aligned to within about 5 kb of the repeat sequence. In some embodiments, unaligned reads include reads that cannot be aligned or are poorly aligned with the sequence graph.

[0016] В некоторых вариантах реализации одна последовательность повторов или более включают в себя последовательность коротких тандемных повторов (КТП). В некоторых вариантах реализации экспансия КТП связана с синдромом ломкой X-хромосомы, боковым амиотрофическим склерозом (АБС), болезнью Хантингтона, атаксией Фридрейха, спиномозжечковой атаксией, спинобульбарной мышечной атрофией, миотонической дистрофией, болезнью Мачадо-Джозефа или дентато-рубро-паллидо-льюисовой атрофией. [0016] In some embodiments, one or more repeat sequences comprise a short tandem repeat (STR) sequence. In some embodiments, the STR expansion is associated with fragile X syndrome, amyotrophic lateral sclerosis (ALS), Huntington's disease, Friedreich's ataxia, spinocerebellar ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, or dentato-rubro-pallido-Lewis atrophy.

[0017] В некоторых вариантах реализации способ дополнительно включает в себя использование секвенатора для создания парных концевых прочтений исследуемого образца. [0017] In some embodiments, the method further includes using a sequencer to generate paired end reads of the sample under study.

[0018] В некоторых вариантах реализации способ дополнительно включает в себя извлечение исследуемого образца из организма субъекта. [0018] In some embodiments, the method further includes extracting the test sample from the subject.

[0019] В некоторых вариантах реализации исследуемый образец представляет собой образец крови, мочи, слюны или ткани. [0019] In some embodiments, the test sample is a blood, urine, saliva, or tissue sample.

[0020] В некоторых вариантах реализации повторяющееся звено включает в себя от 1 до 50 нуклеотидов. [0020] In some embodiments, the repeating unit comprises from 1 to 50 nucleotides.

[0021] В некоторых вариантах реализации прочтение является более коротким, чем по меньшей мере одна из одной или более последовательностей повторов. [0021] In some embodiments, the read is shorter than at least one of the one or more repeat sequences.

[0022] В другом аспекте описания предложены системы для генотипирования геномных локусов, включая последовательности повторов. В некоторых вариантах реализации система включает в себя: системное запоминающее устройство и один или более процессоров, настроенных для выполнения следующих действий: (a) сбор с применением одного или более процессоров, прочтений последовательности исследуемого образца из базы данных; (b) выравнивание с помощью одного или более процессоров, прочтение одной или более последовательностей повторов, каждая из которых представлена графом последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, при этом каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одним или более процессорами одного или более генотипов одной или более последовательностей повторов с использованием прочтений последовательности, выровненных с одной или более последовательностями повторов. [0022] In another aspect of the disclosure, systems are provided for genotyping genomic loci, including repeat sequences. In some embodiments, a system includes: a system memory and one or more processors configured to perform the following actions: (a) collecting, using the one or more processors, sequence reads of a test sample from a database; (b) aligning, using the one or more processors, the reads of one or more repeat sequences, each of which is represented by a sequence graph, wherein the sequence graph has a directed graph data structure, wherein the nodes represent nucleotide sequences and directed edges connect the nodes, and wherein the sequence graph comprises one or more proper simple cycles, wherein each proper simple cycle represents a subsequence of the repeats, wherein each subsequence of the repeats comprises repeats of a repeat unit of one or more nucleotides; and (c) determining, using the one or more processors, one or more genotypes of the one or more repeat sequences using the sequence reads aligned to the one or more repeat sequences.

[0023] В некоторых вариантах реализации система также включает в себя секвенатор для секвенирования нуклеиновых кислот исследуемого образца. [0023] In some embodiments, the system also includes a sequencer for sequencing nucleic acids of the test sample.

[0024] В некоторых вариантах реализации один или более процессоров настроены для работы в рамках различных способов, описанных в настоящем документе. [0024] In some embodiments, one or more processors are configured to operate in accordance with the various methods described herein.

[0025] В другом аспекте описания предлагается компьютерный программный продукт, включающий в себя машиночитаемый носитель, предназначенный для долговременного хранения информации, содержащий программный код, исполнение которого одним или более процессорами компьютерной системы приводит к реализации компьютерной системой описанных выше способов генотипирования геномных локусов, включая последовательности повторов. Программный код включает в себя (a) код для сбора прочтений последовательности исследуемого образца из базы данных; (b) код для выравнивания прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) код для определения одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выровненных с одной или более последовательностями повторов. [0025] In another aspect of the description, a computer program product is provided, including a computer-readable medium intended for long-term storage of information, containing program code, execution of which by one or more processors of the computer system causes the computer system to implement the above-described methods for genotyping genomic loci, including repeat sequences. The program code includes (a) code for collecting sequence reads of a test sample from a database; (b) code for aligning the sequence reads with one or more repeat sequences, each of which is represented in a sequence graph, wherein the sequence graph has a data structure of a directed graph, wherein the nodes represent nucleotide sequences and directed edges connecting the nodes, and wherein the sequence graph contains one or more proper simple cycles, wherein each proper simple cycle represents a subsequence of repeats, wherein each subsequence of repeats contains repeats of a repeating unit of one or more nucleotides; and (c) code for determining one or more genotypes of one or more repeat sequences using sequence reads aligned to the one or more repeat sequences.

[0026] В некоторых вариантах реализации программный код включает в себя код для выполнения операций в рамках способов, описанных в настоящем документе. [0026] In some embodiments, the program code includes code for performing operations within the methods described herein.

[0027] Несмотря на то, что примеры и терминология, используемые в настоящем документе, относятся к организму человека, концепции, описанные в настоящем документе, применимы к геномам любых растений или животных. Пониманию этих и других целей и признаков настоящего описания способствует представленное ниже описание и прилагаемая формула изобретения; кроме того, необходимые данные могут быть получены при практической реализации содержания описания, представленного ниже. [0027] Although the examples and terminology used herein relate to the human body, the concepts described herein are applicable to the genomes of any plant or animal. An understanding of these and other objects and features of the present disclosure is aided by the description below and the appended claims; in addition, the necessary information may be obtained by practicing the contents of the description below.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS

[0028] На Фиг. 1A представлена принципиальная схема, иллюстрирующая трудности выравнивания последовательности с последовательностью повторов на эталонной последовательности. [0028] Fig. 1A is a schematic diagram illustrating the difficulties of aligning a sequence with a repeat sequence on a reference sequence.

[0029] На Фиг. 1B представлена принципиальная схема, иллюстрирующая выравнивание прочтений последовательностей с применением парных концевых прочтений в соответствии с определенными вариантами реализации для преодоления трудностей, проиллюстрированных на Фиг. 1A. [0029] Fig. 1B is a schematic diagram illustrating alignment of sequence reads using paired end reads in accordance with certain embodiments to overcome the difficulties illustrated in Fig. 1A.

[0030] На Фиг. 1C представлена блок-схема, иллюстрирующая процесс генотипирования геномного локуса, включающего в себя последовательность повторов, в соответствии с некоторыми вариантами реализации. [0030] Fig. 1C is a flow chart illustrating a process for genotyping a genomic locus that includes a repeat sequence, in accordance with some embodiments.

[0031] На Фиг. 1D проиллюстрирован первый граф последовательности, представляющий первый геномный локус. [0031] Fig. 1D illustrates a first sequence graph representing a first genomic locus.

[0032] На Фиг. 1E проиллюстрирован второй граф последовательности, представляющий второй геномный локус. [0032] Fig. 1E illustrates a second sequence graph representing a second genomic locus.

[0033] На Фиг. 1F проиллюстрирован третий граф последовательности, представляющий третий геномный локус [0033] Fig. 1F illustrates a third sequence graph representing a third genomic locus.

[0034] На Фиг. 1G представлена принципиальная схема процесса определения генотипов вариантов локуса HTT, включающего в себя две последовательности КТП, в соответствии с некоторыми вариантами реализации. [0034] Fig. 1G is a schematic diagram of a process for determining genotypes of HTT locus variants that include two CTP sequences, in accordance with some embodiments.

[0035] На Фиг. 1H представлена принципиальная схема процесса определения генотипов вариантов в локусе Lynch I, включающем ОНВ и КТП, в соответствии с некоторыми вариантами реализации. На левой панели Фиг. 1H представлена принципиальная схема общего процесса выполнения целевого генотипирования; на правой панели проиллюстрировано применение данного процесса в рамках вариантов генотипирования в локусе, связанном с синдромом Lynch I. [0035] Fig. 1H is a schematic diagram of the process for determining genotypes of variants at the Lynch I locus, including the ONV and the CTP, according to some embodiments. The left panel of Fig. 1H is a schematic diagram of the general process for performing targeted genotyping; the right panel illustrates the application of this process to genotyping variants at the locus associated with Lynch I syndrome.

[0036] На Фиг. 2 представлена блок-схема, на которой проиллюстрировано изображение высокого уровня примера способа определения наличия или отсутствия экспансии последовательности повторов в образце. [0036] Fig. 2 is a block diagram illustrating a high level view of an example of a method for determining the presence or absence of a repeat sequence expansion in a sample.

[0037] На Фиг. 3 и 4 представлены блок-схемы, иллюстрирующие примеры способов обнаружения экспансии повторов с применением парных концевых прочтений. [0037] Figs. 3 and 4 are flow charts illustrating examples of methods for detecting repeat expansion using paired end reads.

[0038] На Фиг. 5 представлена блок-схема способа, в котором для определения экспансии повторов применяют невыровненные прочтения, не связанные с какой-либо исследуемой последовательностью повторов. [0038] Fig. 5 is a flow chart of a method in which unaligned reads that are not associated with any repeat sequence of interest are used to determine repeat expansion.

[0039] На Фиг. 6 представлена блок-схема дисперсной системы для обработки исследуемого образца. [0039] Fig. 6 shows a block diagram of a dispersed system for processing a test sample.

[0040] На Фиг. 7 проиллюстрирована точность генотипирования КТП CAG и CCG в локусе HTT на основании смоделированных данных с применением различных способов. [0040] Fig. 7 illustrates the genotyping accuracy of CAG and CCG TTPs at the HTT locus based on simulated data using different methods.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

[0041] Описание относится к способам, устройствам, системам и компьютерным программным продуктам, предназначенным для определения целевых экспансий повторов, в том числе экспансий последовательностей повторов, которые являются значимыми с медицинской точки зрения. Примеры экспансий повторов включают, без ограничений, экспансии, связанные с генетическими расстройствами, такими как синдром ломкой X-хромосомы, АБС, болезнь Хантингтона, атаксия Фридрейха, спиномозжечковая атаксия, спинобульбарная мышечная атрофия, миотоническая дистрофия, болезнь Мачадо-Джозефа и дентато-рубро-паллидо-льюисова атрофия. [0041] The disclosure relates to methods, devices, systems, and computer program products for determining target repeat expansions, including repeat sequence expansions, that are medically significant. Examples of repeat expansions include, but are not limited to, expansions associated with genetic disorders such as fragile X syndrome, ALS, Huntington's disease, Friedreich's ataxia, spinocerebellar ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, and dentato-rubro-pallido-Lewis atrophy.

[0042] Если не указано иное, практическая реализация способов и систем, описанных в настоящем документе, включает стандартные методики и устройства, широко применяемые в молекулярной биологии, микробиологии, при очистке белков, белковой инженерии, сфере секвенирования белков и ДНК и областях работы с рекомбинантными ДНК, которые находятся в рамках компетенции специалистов в данной области. Такие методики и устройство известны специалистам в данной области и описаны в многочисленных справочных публикациях (см. например, Sambrook et al., “Molecular Cloning: A Laboratory Manual,” Third Edition (Cold Spring Harbor), [2001]); и Ausubel et al., “Current Protocols in Molecular Biology” [1987]). [0042] Unless otherwise indicated, the practice of the methods and systems described herein involves standard techniques and apparatus commonly used in molecular biology, microbiology, protein purification, protein engineering, protein and DNA sequencing, and recombinant DNA fields, which are within the skill of the art. Such techniques and apparatus are known to those skilled in the art and are described in numerous reference publications (see, e.g., Sambrook et al., “Molecular Cloning: A Laboratory Manual,” Third Edition (Cold Spring Harbor), [2001]); and Ausubel et al., “Current Protocols in Molecular Biology” [1987]).

[0043] Числовые диапазоны включают в себя числа, определяющие диапазон. Предполагается, что каждое максимальное числовое ограничение, встречающееся в настоящем описании, включает в себя каждое меньшее числовое ограничение таким образом, как если бы такие меньшие числовые ограничения были явным образом указаны в настоящем документе. Каждое минимальное числовое ограничение, встречающееся в настоящем описании, будет включать каждое большее числовое ограничение таким образом, как если бы такие большие числовые ограничения были явным образом указаны в настоящем документе. Каждый числовой диапазон, встречающийся в настоящем описании, будет включать каждый более узкий числовой диапазон, который находится в пределах такого более широкого числового диапазона таким образом, как если бы все такие более узкие числовые диапазоны были явным образом указаны в настоящем документе. [0043] Numerical ranges include the numbers defining the range. Each maximum numerical limitation appearing in this specification is intended to include every lesser numerical limitation, as if such lesser numerical limitations were expressly written herein. Each minimum numerical limitation appearing in this specification will include every greater numerical limitation, as if such greater numerical limitations were expressly written herein. Each numerical range appearing in this specification will include every narrower numerical range that is within such broader numerical range, as if all such narrower numerical ranges were expressly written herein.

[0044] Заголовки, представленные в настоящем документе, не имеют ограничительного характера относительно настоящего описания. [0044] The headings provided in this document are not intended to be limiting with respect to the present description.

[0045] Если не указано иное, все технические и научные термины, используемые в настоящем документе, имеют общепринятое значение, понятное любому обычному специалисту в данной области. Специалистам в данной области хорошо известна и доступна разнообразная научная терминология, в том числе терминология, использующаяся в настоящем документе. Хотя любые методы и материалы, подобные или эквивалентные описанным в настоящем документе, находят применение при практическом применении или тестировании вариантов реализации, описанных в данном документе, были описаны некоторые методы и материалы. [0045] Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art. A variety of scientific terminology, including terminology used herein, is well known and available to those skilled in the art. Although any methods and materials similar or equivalent to those described herein find use in the practice or testing of the embodiments described herein, certain methods and materials have been described.

[0046] Термины, определения которых приведены ниже, более полно описаны со ссылкой на полную версию спецификации. Следует понимать, что настоящее описание не ограничено исключительно конкретной методологией, протоколами и реагентами, поскольку они могут изменяться в зависимости от контекста, в рамках которого они используются специалистами в данной области. [0046] The terms defined below are more fully described by reference to the full version of the specification. It should be understood that this description is not limited solely to specific methodology, protocols, and reagents, as these may vary depending on the context in which they are used by those skilled in the art.

ОпределенияDefinitions

[0047] Используемые в настоящем документе термины в единственном числе подразумевают такие же термины в множественном числе, если контекст не требует иного. [0047] As used herein, the singular terms include the plural forms of the same terms unless the context otherwise requires.

[0048] Если не указано иное, нуклеиновые кислоты записывают слева направо в ориентации от 5’ к 3’, а аминокислотные последовательности записывают слева направо в ориентации от амино к карбокси, соответственно. [0048] Unless otherwise noted, nucleic acids are written left to right in a 5' to 3' orientation, and amino acid sequences are written left to right in an amino to carboxy orientation, respectively.

[0049] Термин «множество» относится к более чем одному элементу. Например, термин используется в настоящем документе в отношении ряда молекул нуклеиновых кислот или прочтений последовательностей, достаточных для определения существенных различий в экспансиях повторов в исследуемых образцах и контрольных образцах с применением способов, описанных в настоящем документе. [0049] The term "plurality" refers to more than one element. For example, the term is used herein to refer to a number of nucleic acid molecules or sequence reads sufficient to detect significant differences in repeat expansions between test samples and control samples using the methods described herein.

[0050] Термин «последовательность повторов» относится к нуклеотидной последовательности, включающей повторяющиеся включения более короткой последовательности. В настоящем документе более короткая последовательность называется «повторяющимся звеном». Повторяющиеся случаи включения повторяющихся звеньев называются «повторами» или «копиями» повторяющегося звена. Во многих контекстах местоположение последовательности повторов связано с геном, кодирующим белок. В других ситуациях последовательность повторов может находиться в некодирующей области. Повторяющиеся звенья могут образовываться в последовательности повторов с разрывами или без разрывов между повторяющимися звеньями. Например, в нормальных образцах ген FMR1 обычно включает в себя разрыв AGG в повторах CGG, например, (CGG)10 + (AGG) + (CGG)9. Образцы с отсутствием разрыва, а также последовательности длинных повторов с малым количеством разрывов, склонны к экспансии повторов связанного гена, что может приводить к генетическим заболеваниям, поскольку повторы расширяются выше определенного числа. В различных вариантах реализации настоящего описания число повторов подсчитывается так же, как и количество повторов внутри рамки, независимо от наличия разрывов. Способы оценки повторов внутри рамки дополнительно описаны ниже. [0050] The term "repeat sequence" refers to a nucleotide sequence that includes repeated inclusions of a shorter sequence. As used herein, the shorter sequence is referred to as a "repeat unit." Repeated instances of inclusion of repeat units are referred to as "repeats" or "copies" of the repeat unit. In many contexts, the location of the repeat sequence is associated with a gene encoding a protein. In other situations, the repeat sequence may be in a non-coding region. Repeat units may be formed in a repeat sequence with or without gaps between repeat units. For example, in normal samples, the FMR1 gene typically includes an AGG gap in CGG repeats, such as (CGG)10 + (AGG) + (CGG)9. Gapless patterns, as well as long repeat sequences with few gaps, are prone to expansion of the associated gene repeats, which can lead to genetic diseases because the repeats expand beyond a certain number. In various embodiments of the present disclosure, the number of repeats is counted in the same way as the number of in-frame repeats, regardless of the presence of gaps. Methods for assessing in-frame repeats are further described below.

[0051] В разнообразных вариантах реализации повторяющиеся звенья содержат от 1 до 100 нуклеотидов. Многими достаточно хорошо изученными повторяющимися звеньями являются тринуклеотидные или гексануклеотидные звенья. Некоторые другие повторяющиеся звенья, которые были хорошо изучены и являются применимыми к вариантам реализации, описанным в настоящем документе, содержат, без ограничений, звенья из 4, 5, 6, 8, 12, 33 или 42 нуклеотидов. См. например, Richards (2001) Human Molecular Genetics, Vol. 10, No. 20, 2187-2194. Области применения настоящего изобретения не ограничены конкретным количеством нуклеотидных оснований, описанных выше, при условии, что они являются относительно короткими по сравнению с последовательностью повторов, имеющей множество повторов или копий повторяющихся звеньев. Например, повторяющееся звено может содержать по меньшей мере 3, 6, 8, 10, 15, 20, 30, 40, 50 нуклеотидов. В качестве альтернативы или дополнения, повторяющееся звено может содержать не более около 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6 или 3 нуклеотидов. [0051] In various embodiments, the repeat units comprise from 1 to 100 nucleotides. Many well-characterized repeat units are trinucleotide or hexanucleotide units. Some other repeat units that have been well characterized and are applicable to the embodiments described herein include, but are not limited to, units of 4, 5, 6, 8, 12, 33, or 42 nucleotides. See, for example, Richards (2001) Human Molecular Genetics, Vol. 10, No. 20 , 2187-2194. The scope of the present invention is not limited to the specific number of nucleotide bases described above, so long as they are relatively short compared to a repeat sequence having multiple repeats or copies of the repeat units. For example, the repeating unit may comprise at least 3, 6, 8, 10, 15, 20, 30, 40, 50 nucleotides. Alternatively or additionally, the repeating unit may comprise no more than about 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6 or 3 nucleotides.

[0052] Последовательность повторов может расширяться в условиях развития и мутагенеза с образованием большего числа копий одного и того же повторяющегося звена. В данной области это называется «экспансией повторов». Данный процесс также называется «динамической мутацией» вследствие нестабильной природы экспансии повторяющегося звена. Было показано, что некоторые экспансии повторов связаны с генетическими заболеваниями и патологическими симптомами. Другие экспансии повторов являются недостаточно изученными. Описанные в настоящем документе способы могут применяться для определения как известных, так и новых экспансий повторов. В некоторых вариантах реализации последовательность повторов, имеющая экспансию повторов, длиннее, чем около 100, 150, 300 или 500 пар нуклеотидных оснований (п. н. о.). В некоторых вариантах реализации последовательность повторов, имеющая экспансию повторов, составляет более чем около 1 000 п. н. о., 2 000 п. н. о., 3 000 п. н. о., 4 000 п. н. о., 5 000 п. н. о. или 10 000 п. н. о. и т. д. [0052] A repeat sequence can expand under developmental and mutagenesis conditions to produce more copies of the same repeat unit. This is referred to in the art as "repeat expansion." This process is also referred to as "dynamic mutation" due to the unstable nature of the repeat unit expansion. Some repeat expansions have been shown to be associated with genetic diseases and pathological symptoms. Other repeat expansions are poorly understood. The methods described herein can be used to identify both known and novel repeat expansions. In some embodiments, a repeat sequence having a repeat expansion is longer than about 100, 150, 300, or 500 nucleotide base pairs (bp). In some embodiments, a repeat sequence having a repeat expansion is greater than about 1,000 bp. o., 2,000 bp, 3,000 bp, 4,000 bp, 5,000 bp or 10,000 bp, etc.

[0053] В теории графов вершина и ребро являются двумя базовыми единицами, из которых построены графы. Вершина или узел представляет собой одну из точек графа, которая может быть соединена ребрами. На диаграмме графа вершина может быть представлена в виде формы с меткой, а ребро может быть представлено линией (ненаправленным ребром) или стрелкой (направленным ребром), проходящей от одной вершины к другой. [0053] In graph theory, a vertex and an edge are the two basic units from which graphs are constructed. A vertex or node is one of the points in a graph that can be connected by edges. In a graph diagram, a vertex can be represented as a shape with a label, and an edge can be represented as a line (an undirected edge) or an arrow (a directed edge) running from one vertex to another.

[0054] Две вершины, соединенные ребром, считают конечными точками ребра. Вершина × считается смежной с другой вершиной y в случае, если граф содержит ребро (x, y). [0054] Two vertices connected by an edge are considered to be endpoints of the edge. A vertex × is considered adjacent to another vertex y if the graph contains the edge (x, y).

[0055] Ненаправленный граф состоит из набора вершин и набора ненаправленных ребер (соединяющих неупорядоченные пары вершин), а направленный граф состоит из набора вершин и набора направленных ребер (соединяющих упорядоченные пары вершин). [0055] An undirected graph consists of a set of vertices and a set of undirected edges (connecting unordered pairs of vertices), while a directed graph consists of a set of vertices and a set of directed edges (connecting ordered pairs of vertices).

[0056] В теории графов каждое ребро имеет две вершины (на гиперграфах их может быть больше), к которым оно прикреплено и которые называются его конечными точками. Ребра могут быть направленными или ненаправленными; Ненаправленные ребра также называют линиями, а направленные ребра также называют дугами или стрелками. [0056] In graph theory, each edge has two vertices (in hypergraphs there may be more) to which it is attached, called its endpoints. Edges may be directed or undirected; undirected edges are also called lines, and directed edges are also called arcs or arrows.

[0057] Направленное ребро представляет собой ребро, которое соединяет верхнюю и нижнюю вершины, причем верхняя вершина находится перед направленным ребром, а нижняя вершина находится после направленного ребра. [0057] A directed edge is an edge that connects a top and bottom vertex, where the top vertex is before the directed edge and the bottom vertex is after the directed edge.

[0058] Ненаправленное ребро представляет собой ребро, соединяющее две вершины, причем любая из вершин может находиться перед другой на пути в графе. [0058] An undirected edge is an edge that connects two vertices, where either vertex may be in front of the other on a path in the graph.

[0059] В настоящем документе термины «цикл», «собственный простой цикл» и «одноузловой цикл» являются взаимозаменяемыми. Цикл имеет один узел и ребро, оба конца которых соединены с одним узлом. [0059] In this document, the terms "cycle", "proper simple cycle", and "single-node cycle" are used interchangeably. A cycle has one node and an edge, both ends of which are connected to one node.

[0060] Цикл представляет собой путь, содержащий две или более вершин, причем путь цикла начинается и заканчивается одной и той же вершиной. Простой цикл представляет собой цикл, который не имеет повторяющихся вершин или ребер, кроме от начальной и конечной вершин. [0060] A cycle is a path containing two or more vertices, where the path of the cycle begins and ends with the same vertex. A simple cycle is a cycle that has no repeating vertices or edges other than from the start and end vertices.

[0061] Циклический граф представляет собой граф, который содержит по меньшей мере один цикл. [0061] A cyclic graph is a graph that contains at least one cycle.

[0062] Ациклический граф представляет собой граф, не содержащих циклов или собственных простых циклов. [0062] An acyclic graph is a graph that does not contain cycles or proper simple cycles.

[0063] Направленный ациклический граф (DAG) представляет собой направленный граф без каких-либо циклов или собственных простых циклов. [0063] A directed acyclic graph (DAG) is a directed graph without any cycles or proper simple cycles.

[0064] Путь в графе представляет собой последовательность вершин и ребер, в которой обе конечные точки ребра находятся смежно с ребром в последовательности. Путь в направленном графе имеет верхнюю вершину, которая находится перед направленным ребром (или дугой/стрелкой), и нижнюю вершину, которая находится после направленного ребра. [0064] A path in a graph is a sequence of vertices and edges in which both endpoints of an edge are adjacent to an edge in the sequence. A path in a directed graph has a top vertex that is before the directed edge (or arc/arrow) and a bottom vertex that is after the directed edge.

[0065] Распределение Пуассона представляет собой дискретное распределение вероятности, которое выражает вероятность заданного числа событий, происходящих в рамках фиксированного интервала времени или пространства, если эти события происходят с известной постоянной скоростью и независимо от времени с момента последнего события. [0065] The Poisson distribution is a discrete probability distribution that expresses the probability of a given number of events occurring within a fixed interval of time or space if those events occur at a known constant rate and regardless of the time since the last event.

[0066] Полностью определенные символы основания включают G, A, T, C для обозначения гуанина, аденина, тимина и цитозина, соответственно. [0066] Fully defined base symbols include G, A, T, C to represent guanine, adenine, thymine, and cytosine, respectively.

[0067] Перечень частично определенных нуклеиновых кислот включает в себя, среди прочего, следующие составляющие: [0067] The list of partially defined nucleic acids includes, among other things, the following components:

[0068] Пурин (аденин или гуанин): R [0068] Purine (adenine or guanine): R

[0069] Пиримидин (тимин или цитозин): Y [0069] Pyrimidine (thymine or cytosine): Y

[0070] Аденин или тимин. W [0070] Adenine or thymine. W

[0071] Гуанин или цитозин: S [0071] Guanine or cytosine: S

[0072] Аденин или цитозин: M [0072] Adenine or cytosine: M

[0073] Гуанин или тимин: K [0073] Guanine or Thymine: K

[0074] Аденин, тимин или цитозин: H [0074] Adenine, thymine, or cytosine: H

[0075] Гуанин, цитозин или тимин: B [0075] Guanine, cytosine or thymine: B

[0076] Гуанин, аденин или цитозин: V [0076] Guanine, adenine or cytosine: V

[0077] Гуанин, аденин или тимин. D [0077] Guanine, adenine, or thymine. D

[0078] Гуанин, аденин, тимин или цитозин: N [0078] Guanine, adenine, thymine, or cytosine: N

[0079] Термин «парные концевые прочтения» относится к прочтениям, полученным путем парного концевого секвенирования, в результате которого получают по одному прочтению с каждого конца фрагмента нуклеиновой кислоты. Парное концевое секвенирование включает фрагментирование ДНК для образования последовательностей, называемых вставками. В некоторых протоколах, в том числе протоколах, используемых Illumina, прочтения с более коротких вставок (например, от десятков до сотен п. н. о.), называют парными концевыми прочтениями с короткими вставками или парными концевыми прочтениями. В противоположность этому, прочтения из более длинных вставок (например, порядка нескольких тысяч п. н. о.) называют прочтениями сопряженных пар. В настоящем описании могут применять парные концевые прочтения и короткими вставками и прочтения сопряженных пар с длинными вставками; при этом они не дифференцируются в отношении процесса анализа экспансий повторов. Следовательно, термин «парные концевые прочтения» может относиться как к парным концевым прочтениям с короткими вставками, так и к прочтениям сопряженных пар с длинными вставками, которые дополнительно описаны ниже в настоящем документе. В некоторых вариантах реализации парные концевые прочтения включают в себя прочтения от около 20 п. н. о. до 1 000 п. н. о. В некоторых вариантах реализации парные концевые прочтения включают в себя прочтения от около 50 п. н. о. до 500 п. н. о., от около 80 п. н. о. до 150 п. н. о. или около 100 п. н. о. Следует понимать, что два прочтения на парном конце не обязательно должны располагаться на крайнем конце секвенируемого фрагмента. Вместо этого одно или оба прочтения могут находиться вблизи конца фрагмента. Более того, способы, примеры которых приведены в настоящем документе в контексте парных концевых прочтений, можно осуществлять с любым из множества парных прочтений независимо от того, получены ли прочтения с конца или другой части фрагмента. [0079] The term "paired-end reads" refers to reads obtained by paired-end sequencing, which produces one read from each end of a nucleic acid fragment. Paired-end sequencing involves fragmenting DNA to form sequences called inserts. In some protocols, including those used by Illumina, reads from shorter inserts (e.g., tens to hundreds of bp) are referred to as paired-end reads with short inserts or paired-end reads. In contrast, reads from longer inserts (e.g., on the order of several thousand bp) are referred to as mate-paired reads. As used herein, paired-end reads with short inserts and mate-paired reads with long inserts may be used; however, they are not differentiated with respect to the repeat expansion analysis process. Therefore, the term "paired end reads" can refer to both short insert paired end reads and long insert mate pair reads, which are further described below herein. In some embodiments, paired end reads include reads from about 20 bp to 1,000 bp. In some embodiments, paired end reads include reads from about 50 bp to 500 bp, from about 80 bp to 150 bp, or about 100 bp. It should be understood that the two paired end reads need not be located at the extreme end of the fragment being sequenced. Instead, one or both reads may be located near the end of the fragment. Moreover, the methods exemplified herein in the context of paired end reads can be performed with any of a plurality of paired end reads, regardless of whether the reads are obtained from the end or another part of the fragment.

[0080] Используемый в настоящем документе термин «выравнивание» относится к процессу сравнения прочтения с эталонной последовательностью и определения того, содержит ли эталонная последовательность считываемую последовательность. В процессе выравнивания предпринимают попытки определения того, может ли прочтение быть сопоставлено с эталонной последовательностью, но не всегда приводить к выполнению прочтения, выровненного с эталонной последовательностью. Если эталонная последовательность содержит прочтение, то прочтение может сопоставляться с эталонной последовательностью или, в некоторых вариантах реализации, с конкретным местоположением в эталонной последовательности. В некоторых случаях выравнивание просто указывает, является ли прочтение членом конкретной эталонной последовательности (т. е. присутствует ли прочтение в эталонной последовательности или отсутствует). Например, выравнивание прочтения относительно эталонной последовательности для человеческой хромосомы 13 будет указывать, присутствует ли прочтение в эталонной последовательности для хромосомы 13. Инструмент, предоставляющий эту информацию, можно назвать модулем тестирования принадлежности множеству. В некоторых случаях выравнивание дополнительно указывает местоположение в эталонной последовательности, с которой сопоставляется прочтение. Например, если эталонная последовательность представляет собой человеческую последовательность целого генома, то выравнивание может указывать на наличие прочтения на хромосоме 13 и может дополнительно указывать на то, что прочтение находится на конкретной цепи и/или сайте хромосомы 13. [0080] As used herein, the term "alignment" refers to the process of comparing a read to a reference sequence and determining whether the reference sequence contains the read sequence. The alignment process attempts to determine whether a read can be aligned with the reference sequence, but does not always result in a read that is aligned with the reference sequence. If the reference sequence contains a read, the read may align with the reference sequence or, in some embodiments, with a specific location in the reference sequence. In some cases, an alignment simply indicates whether a read is a member of a specific reference sequence (i.e., whether the read is present in the reference sequence or not). For example, aligning a read to a reference sequence for human chromosome 13 will indicate whether the read is present in the reference sequence for chromosome 13. A tool that provides this information may be referred to as a set membership testing module. In some cases, the alignment further specifies the location in the reference sequence to which the read is aligned. For example, if the reference sequence is the human whole genome sequence, the alignment may indicate that the read is on chromosome 13 and may further specify that the read is on a specific strand and/or site on chromosome 13.

[0081] Выровненные прочтения представляют собой одну или более последовательностей, которые определены как совпадающие в соответствии с порядком их молекул нуклеиновой кислоты с известной эталонной последовательностью, такой как эталонный геном. Выровненное прочтение и его определенное местоположение на эталонной последовательности составляют метку последовательности. Выравнивание можно выполнять вручную, хотя обычно оно реализуется с помощью компьютерного алгоритма, поскольку невозможно выровнять прочтения за приемлемый период времени для реализации способов, описанных в настоящем документе. Одним примером алгоритма выравнивания последовательностей является компьютерная программа Efficient Local Alignment of Nucleotide Data (ELAND), распространяемая в качестве части технологического процесса геномного анализа Illumina. В альтернативном варианте реализации для выравнивания прочтений с эталонными геномами можно применять фильтр Блума или аналогичный модуль тестирования принадлежности множеству. См. Патентную заявку США № 14/354 528, поданную 25 апреля 2014 г., которая полностью включена в настоящий документ посредством ссылки. Согласование прочтения последовательности в процессе выравнивания может представлять собой 100%-ное или менее чем 100%-ное совпадение последовательности (т. е. неидеальное совпадение). [0081] Aligned reads are one or more sequences that are determined to match, according to the order of their nucleic acid molecules, a known reference sequence, such as a reference genome. An aligned read and its determined location on the reference sequence constitute a sequence tag. Alignment can be performed manually, although it is typically implemented using a computer algorithm, since it is not possible to align reads in a reasonable amount of time to implement the methods described herein. One example of a sequence alignment algorithm is the Efficient Local Alignment of Nucleotide Data (ELAND) computer program distributed as part of the Illumina genomic analysis workflow. In an alternative embodiment, a Bloom filter or similar set membership testing module can be used to align reads to reference genomes. See U.S. Patent Application No. 14/354,528, filed April 25, 2014, which is incorporated herein by reference in its entirety. The alignment of the sequence reads in the alignment process may be a 100% or less than 100% sequence match (i.e., a non-perfect match).

[0082] Используемый в настоящем документе термин «сопоставление» означает присвоение последовательности прочтений большей последовательности, например эталонному геному, путем выравнивания. [0082] As used herein, the term "alignment" means assigning a sequence of reads to a larger sequence, such as a reference genome, by alignment.

[0083] В некоторых случаях прочтение одного конца двух парных концевых прочтений выровнено с последовательностью повторов эталонной последовательности, а прочтение другого конца двух парных концевых прочтений не выровнено. В таких случаях спаренное прочтение, которое выровнено с последовательностью повторов эталонной последовательности, называется «базовым прочтением». Парное концевое прочтение, не выровненное с последовательностью повторов, но соединенное с базовым прочтением, называется закрепленным прочтением. Таким образом, невыровненное прочтение может закрепляться и связываться с последовательностью повторов. В некоторых вариантах реализации невыровненные прочтения включают в себя как прочтения, которые не могут быть выровнены с эталонной последовательностью, так и прочтения, которые являются плохо выровненными с эталонной последовательностью. Если прочтение выровнено с эталонной последовательностью, и при этом уровень ошибочно спаренных оснований находится выше определенного критерия, такое прочтение считается плохо выровненным. Например, в различных вариантах реализации прочтение считают плохо выровненным, если при его выравнивании были отмечены по меньшей мере около 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 несовпадений. В некоторых случаях оба прочтения пары выровнены с эталонной последовательностью. В таких случаях оба прочтения могут быть проанализированы в качестве «базовых прочтений» в различных вариантах реализации. [0083] In some cases, a read at one end of two paired-end reads is aligned with a repeat sequence of a reference sequence, and a read at the other end of the two paired-end reads is not aligned. In such cases, the paired-end read that is aligned with the repeat sequence of the reference sequence is called a "base read." A paired-end read that is not aligned with the repeat sequence but is linked to the base read is called an anchored read. Thus, a misaligned read can be anchored and linked to the repeat sequence. In some embodiments, misaligned reads include both reads that cannot be aligned with the reference sequence and reads that are poorly aligned with the reference sequence. If a read is aligned with the reference sequence and the mismatch level is above a certain criterion, the read is considered poorly aligned. For example, in various embodiments, a read is considered poorly aligned if at least about 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 mismatches were noted during its alignment. In some cases, both reads of a pair are aligned with a reference sequence. In such cases, both reads may be analyzed as "base reads" in various embodiments.

[0084] Термины «полинуклеотид»,«нуклеиновая кислота» и «молекулы нуклеиновой кислоты» используются взаимозаменяемо и относятся к ковалентно связанной последовательности нуклеотидов (например, рибонуклеотидов для РНК и дезоксирибонуклеотидов для ДНК), в которой положение 3’ пентозы одного нуклеотида соединено фосфодиэфирной группой с положением 5’ пентозы следующего нуклеотида. нуклеотиды включают последовательности любой формы нуклеиновой кислоты, включая, без ограничений, молекулы РНК и ДНК, такие как свободно-клеточные ДНК (скДНК). Термин «полинуклеотид» включает, без ограничений, одно- и двухцепочечные полинуклеотиды. [0084] The terms "polynucleotide,""nucleicacid," and "nucleic acid molecules" are used interchangeably and refer to a covalently linked sequence of nucleotides (e.g., ribonucleotides for RNA and deoxyribonucleotides for DNA) in which the 3' pentose position of one nucleotide is linked by a phosphodiester group to the 5' pentose position of the next nucleotide. Nucleotides include sequences of any form of nucleic acid, including, but not limited to, RNA and DNA molecules, such as cell-free DNA (cfDNA). The term "polynucleotide" includes, but is not limited to, single- and double-stranded polynucleotides.

[0085] Термин «исследуемый образец» в данном документе относится к образцу, как правило, полученному из биологической текучей среды, клетки, ткани, органа или организма, содержащего нуклеиновую кислоту или смесь нуклеиновых кислот, содержащие по меньшей мере одну нуклеотидную последовательность, которая должна быть проверена на предмет вариации числа копий. В определенных вариантах реализации образец имеет по меньшей мере одну нуклеотидную последовательность, число копий которой предположительно было подвержено изменениям. Такие образцы включают в себя, без ограничений, мокроту/жидкость ротовой полости, амниотическую жидкость, кровь, фракцию крови или образцы, полученные с применением тонкоигольной пункционной биопсии, а также мочу, перитонеальную жидкость, плевральную жидкость и т. п. Хотя образец часто отбирают от субъекта-человека (например, пациента), анализы можно использовать для вариации числа копий (CNV) в образцах, отобранных от любого млекопитающего, включая, без ограничений, собак, кошек, лошадей, коз, овец, крупный рогатый скот, свиней и т. д. Образец может быть использован непосредственно после получения из биологического источника или после предварительной обработки с целью изменения природы образца. Например, такая предварительная обработка может включать получение плазмы из крови, разбавление вязких жидкостей и т. д. Способы предварительной обработки могут также включать, без ограничений, фильтрацию, преципитацию, разбавление, дистилляцию, смешивание, центрифугирование, замораживание, лиофилизацию, концентрирование, амплификацию, фрагментацию нуклеиновых кислот, инактивацию интерферирующих компонентов, добавление реагентов, лизирование и т. п. В случае, если такие способы предварительной обработки используются относительно образца, такие способы предварительной обработки, как правило, подразумевают, что нуклеиновая кислота (кислоты) остается (остаются) в исследуемом образце, иногда в концентрации, являющейся пропорциональной их концентрации в необработанном исследуемом образце (например, в образце, который не подвергают такому виду (видам) предварительной обработки). Такие «обработанные» образцы по-прежнему считаются биологическими «тестовыми» образцами относительно способов, описанных в настоящем документе. [0085] The term "test sample" as used herein refers to a sample, typically obtained from a biological fluid, cell, tissue, organ, or organism, that contains a nucleic acid or mixture of nucleic acids that contains at least one nucleotide sequence that is to be tested for copy number variation. In certain embodiments, the sample has at least one nucleotide sequence that is suspected of having a copy number variation. Such samples include, but are not limited to, sputum/oral fluid, amniotic fluid, blood, blood fraction, or fine needle aspiration biopsy samples, as well as urine, peritoneal fluid, pleural fluid, etc. Although the sample is often collected from a human subject (e.g., a patient), the assays can be used to analyze copy number variations (CNVs) in samples collected from any mammal, including, but not limited to, dogs, cats, horses, goats, sheep, cattle, pigs, etc. The sample can be used directly as obtained from the biological source or after pre-treatment to alter the nature of the sample. For example, such pre-treatment may include obtaining plasma from blood, diluting viscous liquids, etc. Pre-treatment methods may also include, without limitation, filtration, precipitation, dilution, distillation, mixing, centrifugation, freezing, lyophilization, concentration, amplification, fragmentation of nucleic acids, inactivation of interfering components, addition of reagents, lysing, etc. When such pre-treatment methods are used with respect to a sample, such pre-treatment methods typically imply that the nucleic acid(s) remains(remain) in the test sample, sometimes at a concentration that is proportional to their concentration in the untreated test sample (e.g., in a sample that is not subjected to such type(s) of pre-treatment). Such "treated" samples are still considered biological "test" samples with respect to the methods described herein.

[0086] Контрольный образец может быть как отрицательным, так и положительным. Термин «отрицательный контрольный образец» или «незатронутый образец» относится к образцу, содержащему нуклеиновые кислоты, которые, как известно или ожидается, имеют последовательность повторов с числом повторов в диапазоне, который не является патогенным. Известно, что «положительный контрольный образец» или «затронутый образец» имеет последовательность повторов с количеством повторов в диапазоне, который является патогенным. Повторы, находящиеся в последовательности повторов в отрицательном контрольном образце, обычно не расширялись за пределы нормального диапазона, тогда как повторы, находящиеся в последовательности повторов в положительном контрольном образце, обычно расширялись за пределы нормального диапазона. Таким образом, нуклеиновые кислоты в исследуемом образце можно сравнить с одним или более контрольными образцами. [0086] A control sample may be either negative or positive. The term "negative control sample" or "unaffected sample" refers to a sample containing nucleic acids that are known or expected to have a repeat sequence with a repeat number in a range that is not pathogenic. A "positive control sample" or "affected sample" is known to have a repeat sequence with a repeat number in a range that is pathogenic. Repeats in the repeat sequence of a negative control sample typically have not expanded beyond the normal range, whereas repeats in the repeat sequence of a positive control sample typically have expanded beyond the normal range. In this way, nucleic acids in a test sample can be compared to one or more control samples.

[0087] Термин «исследуемая последовательность» в настоящем документе относится к нуклеотидной последовательности, связанной с различиями в представлениях последовательности у здоровых и больных пациентов. Исследуемая последовательность может представлять собой последовательность повторов на хромосоме, которая расширяется при заболевании, в том числе, при наследственном заболевании. Исследуемая последовательность может представлять собой часть хромосомы, ген, кодирующую или некодирующую последовательность. [0087] The term "sequence of interest" as used herein refers to a nucleotide sequence associated with differences in sequence presentation between healthy and diseased patients. The sequence of interest may be a repeat sequence on a chromosome that is expanded in a disease, including a hereditary disease. The sequence of interest may be a portion of a chromosome, a gene, a coding sequence, or a non-coding sequence.

[0088] В настоящем документе термин «секвенирование следующего поколения (NGS)» относится к способам секвенирования, которые позволяют осуществлять массовое параллельное секвенирование клонально амплифицированных молекул и отдельных молекул нуклеиновых кислот. Не имеющие ограничительного характера примеры NGS включают в себя секвенирование путем синтеза с использованием терминаторов обратимых красителей, а также секвенирование путем лигирования. [0088] As used herein, the term "next-generation sequencing (NGS)" refers to sequencing methods that enable massively parallel sequencing of clonally amplified molecules and individual nucleic acid molecules. Non-limiting examples of NGS include sequencing by synthesis using reverse dye terminators and sequencing by ligation.

[0089] Термин «параметр», используемый в настоящем документе, относится к числовому значению, характеризующему физическое свойство. Часто параметр используют для числовой характеризации набора количественных данных и/или численной зависимости между наборами количественных данных. Например, параметром является соотношение (или функция соотношения) между количеством меток последовательности, сопоставленных с хромосомой, и длиной хромосомы, с которой сопоставлены метки. [0089] The term "parameter" as used herein refers to a numerical value that characterizes a physical property. Often, a parameter is used to numerically characterize a set of quantitative data and/or a numerical relationship between sets of quantitative data. For example, a parameter is a ratio (or ratio function) between the number of sequence tags mapped to a chromosome and the length of the chromosome to which the tags are mapped.

[0090] Термин «критерий распознавания» в настоящем документе относится к любому числу или количеству, которое используют в качестве предельного уровня для характеристики образца, такого как исследуемый образец, содержащий нуклеиновую кислоту и отобранный из организма субъекта, предположительно имеющего медицинское состояние. Пороговое значение можно сравнивать со значением параметра для определения того, указывает ли образец, выдающий такое значение параметра, на наличие медицинского состояния у субъекта. В определенных вариантах реализации пороговое значение рассчитывают с использованием набора контрольных данных и используют в качестве предела при выполнении диагностики экспансии повторов в организме. В некоторых вариантах реализации в случаях, если пороговое значение было превышено результатами, полученными способами, описанными в данном документе, у субъекта можно диагностировать экспансию повторов. В рамках способов, описанных в настоящем документе, соответствующие пороговые значения могут быть определены путем анализа значений, рассчитанных относительно обучающего набора образцов или контрольных образцов. Пороговые значения также можно рассчитать по эмпирическим параметрам, таким как глубина секвенирования, длина прочтения, длина последовательности повторов и т. д. В качестве альтернативы, затронутые образцы, определенно имеющие экспансию повторов, также могут использоваться для подтверждения того, что выбранные пороговые значения можно использовать для различения незатронутых образцов в рамках тестовой последовательности. Выбор порогового значения зависит от уровня достоверности, которую пользователь желает сделать для классификации. В некоторых вариантах реализации обучающий набор, используемый для определения соответствующих пороговых значений, содержит по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1 000, 2 000, 3 000, 4 000 или более квалифицированных образцов. Применение больших наборов квалифицированных образцов для повышения диагностического значения пороговых значений может являться предпочтительным. [0090] The term "discrimination criterion" as used herein refers to any number or quantity that is used as a cutoff level for characterizing a sample, such as a test sample, that contains a nucleic acid and is collected from a subject suspected of having a medical condition. The cutoff value can be compared to a parameter value to determine whether a sample that yields such a parameter value indicates the presence of a medical condition in the subject. In certain embodiments, the cutoff value is calculated using a set of control data and is used as a cutoff when diagnosing a repeat expansion in an organism. In some embodiments, if the cutoff value is exceeded by the results obtained by the methods described herein, the subject can be diagnosed with a repeat expansion. In the methods described herein, appropriate cutoff values can be determined by analyzing values calculated relative to a training set of samples or control samples. Threshold values can also be calculated based on empirical parameters such as sequencing depth, read length, repeat sequence length, etc. Alternatively, affected samples that are known to have repeat expansion can also be used to confirm that the selected threshold values can be used to distinguish between unaffected samples within the test sequence. The choice of threshold value depends on the level of confidence that the user wishes to make for the classification. In some embodiments, the training set used to determine the corresponding threshold values contains at least 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 2,000, 3,000, 4,000 or more qualified samples. The use of larger sets of qualified samples to increase the diagnostic value of cut-off values may be preferable.

[0091] Термин «прочтение» относится к прочтению последовательности части образца нуклеиновой кислоты. Как правило, прочтение представляет собой короткую последовательность связных пар нуклеотидных оснований в образце. Прочтение может символически представлять собой последовательность пар нуклеотидных оснований (в виде ATCG) фрагмента образца. Он может храниться в запоминающем устройстве и обрабатываться при необходимости для определения того, соответствует ли он эталонной последовательности или другим критериям. Прочтение можно получать непосредственно с помощью аппарата для секвенирования или опосредованно из сохраненной информации о последовательности, относящейся к образцу. В некоторых случаях прочтение представляет собой последовательность ДНК достаточной длины (например, по меньшей мере около 25 п. н. о.), которую можно использовать для определения большей последовательности или области, например которая может быть выровнена и сопоставлена с хромосомой, геномной областью или геном. [0091] The term "read" refers to a reading of the sequence of a portion of a nucleic acid sample. Typically, a read is a short sequence of coherent nucleotide base pairs in a sample. A read may symbolically represent the sequence of nucleotide base pairs (in the form of ATCG) of a portion of a sample. It may be stored in a memory device and processed as needed to determine whether it matches a reference sequence or other criteria. A read may be obtained directly by a sequencing machine or indirectly from stored sequence information related to a sample. In some cases, a read is a DNA sequence of sufficient length (e.g., at least about 25 bp) that can be used to determine a larger sequence or region, such as one that can be aligned and compared to a chromosome, genomic region, or gene.

[0092] Термин «прочтение генома» используют для обозначения прочтения любых сегментов всего генома субъекта. [0092] The term "genome sequencing" is used to refer to sequencing of any segment of a subject's entire genome.

[0093] Термин «сайт» относится к уникальному положению (т. е. идентификатор хромосомы, хромосомное положение и ориентация) в эталонном геноме. В некоторых вариантах реализации сайт может представлять собой остаток, метку последовательности или положение сегмента на последовательности. [0093] The term "site" refers to a unique location (i.e., chromosome identifier, chromosomal location, and orientation) in a reference genome. In some embodiments, a site may be a residue, a sequence tag, or a segment location on a sequence.

[0094] Используемый здесь термин «эталонный геном» или «эталонная последовательность» относится к любой конкретной известной геномной последовательности, частичной или полной, любого организма или вируса, которая может использоваться для обозначения определенных последовательностей, полученных от субъекта. Например, эталонный геном, используемый для субъектов-людей, а также для многих других организмов, можно найти в Национальном центре биотехнологической информации по адресу ncbi.nlm.nih.gov. Термин «геном» относится к полной генетической информации об организме или вирусе, экспрессируемой в нуклеотидных последовательностях. [0094] As used herein, the term "reference genome" or "reference sequence" refers to any specific known genomic sequence, partial or complete, of any organism or virus that can be used to refer to specific sequences obtained from a subject. For example, the reference genome used for human subjects, as well as for many other organisms, can be found at the National Center for Biotechnology Information at ncbi.nlm.nih.gov. The term "genome" refers to the complete genetic information of an organism or virus expressed in nucleotide sequences.

[0095] В разнообразных вариантах реализации эталонная последовательность значительно больше прочтений, которые выравнивают с ней. Например, он может быть по меньшей мере около в 100 раз больше, или по меньшей мере около в 1 000 раз больше, или по меньшей мере около в 10 000 раз больше, или по меньшей мере около в 105 раз больше, или по меньшей мере около в 106 раз больше, или по меньшей мере около в 107 раз больше. [0095] In various embodiments, the reference sequence is significantly larger than the reads that align to it. For example, it can be at least about 100 times larger, or at least about 1,000 times larger, or at least about 10,000 times larger, or at least about 10 5 times larger, or at least about 10 6 times larger, or at least about 10 7 times larger.

[0096] В одном примере базовая последовательность представляет собой последовательность полноразмерного генома человека. Такие последовательности могут называться эталонными геномными последовательностями. В другом примере базовая последовательность ограничена конкретной хромосомой человека, такой как хромосома 13. В некоторых вариантах реализации эталонная хромосома Y представляет собой хромосомную последовательность Y из версии hg19 генома человека. Такие последовательности могут называться эталонными хромосомными последовательностями. Другие примеры эталонных последовательностей включают геномы других видов, а также хромосомы, субхромосомные области (такие как хроматиды) любых видов. [0096] In one example, the base sequence is a full-length human genome sequence. Such sequences may be referred to as reference genomic sequences. In another example, the base sequence is limited to a specific human chromosome, such as chromosome 13. In some embodiments, the reference Y chromosome is a Y chromosome sequence from the hg19 version of the human genome. Such sequences may be referred to as reference chromosomal sequences. Other examples of reference sequences include genomes of other species, as well as chromosomes, subchromosomal regions (such as chromatids) of any species.

[0097] В некоторых вариантах реализации эталонная последовательность, необходимая для выполнения выравнивания, может иметь длину, превышающую длину прочтения в от около 1 до около 100 раз. В таких вариантах реализации выравнивание и секвенирование считают целевым выравниванием или секвенированием, а не выравниванием или секвенированием всего генома. В данных вариантах реализации эталонная последовательность, как правило, включает в себя исследуемый ген и/или последовательность повторов. [0097] In some embodiments, the reference sequence required to perform the alignment may have a length greater than the read length by about 1 to about 100 times. In such embodiments, the alignment and sequencing is considered a targeted alignment or sequencing, rather than a whole genome alignment or sequencing. In these embodiments, the reference sequence typically includes the gene of interest and/or the repeat sequence.

[0098] В разнообразных вариантах реализации эталонная последовательность представляет собой консенсусную последовательность или другую комбинацию, полученную от множества индивидуумов. Однако в некоторых приложениях эталонную последовательность можно отбирать у конкретного индивидуума. [0098] In various embodiments, the reference sequence is a consensus sequence or other combination obtained from a plurality of individuals. However, in some applications, the reference sequence may be selected from a specific individual.

[0099] Термин «клинически значимая последовательность» в настоящем документе обозначает нуклеотидную последовательность, точно или предположительно связанную с заболеванием, в том числе наследственным. Определение отсутствия или наличия клинически значимой последовательности может быть полезным при определении или подтверждении диагноза медицинского состояния, либо при прогнозировании развития заболевания. [0099] The term "clinically significant sequence" as used herein refers to a nucleotide sequence that is known or suspected to be associated with a disease, including a hereditary disease. Determining the absence or presence of a clinically significant sequence may be useful in determining or confirming a diagnosis of a medical condition or in predicting the progression of a disease.

[00100] Термин «полученный», используемый в настоящем документе, в контексте нуклеиновой кислоты или смеси нуклеиновых кислот означает, что нуклеиновая кислота (кислоты) получена (получены) из источника, из которого (которых) они происходят. Например, в одном варианте реализации смесь нуклеиновых кислот, полученных из двух разных геномов, означает, что нуклеиновые кислоты, например, скДНК, естественным образом высвобождались клетками посредством естественных процессов, таких как некроз или апоптоз. В другом варианте реализации термин «смесь нуклеиновых кислот, полученных из двух разных геномов» означает, что нуклеиновые кислоты экстрагировали из двух разных типов клеток пациента. [00100] The term "obtained" as used herein in the context of a nucleic acid or a mixture of nucleic acids means that the nucleic acid(s) is(are) obtained from the source from which it is(are) derived. For example, in one embodiment, a mixture of nucleic acids obtained from two different genomes means that the nucleic acids, such as cDNA, were naturally released by cells through natural processes such as necrosis or apoptosis. In another embodiment, the term "mixture of nucleic acids obtained from two different genomes" means that the nucleic acids were extracted from two different types of cells in a patient.

[00101] Термин «основанный» при использовании в контексте получения конкретного количественного значения в настоящем документе относится к использованию другого количества в качестве входных данных для расчета конкретного количественного значения в качестве выходных данных. [00101] The term "based" when used in the context of obtaining a specific quantitative value herein refers to the use of another quantity as an input to calculate a specific quantitative value as an output.

[00102] В настоящем документе термин «образец пациента» обозначает биологический образец, отобранный у пациента, т. е. лица, получающего медицинский уход или лечение. Образец пациента может представлять собой любой из образцов, описанных в настоящем документе. В некоторых вариантах реализации образец пациента отбирают с применением неинвазивных процедур, таким образцом может являться, например, образец периферической крови или фекалий. Способы, описанные в настоящем документе, могут применяться не только к людям. Таким образом, рассматривают разнообразные применения в сфере ветеринарии, и в этом случае образец пациента может представлять собой образец, отобранный у млекопитающего, не относящегося к человеку (например, представителя семейства кошачьих, свинообразных, лошадиных, бычьих и т. П.). [00102] As used herein, the term "patient sample" refers to a biological sample collected from a patient, i.e., a person receiving medical care or treatment. The patient sample may be any of the samples described herein. In some embodiments, the patient sample is collected using non-invasive procedures, and may be, for example, a peripheral blood sample or a fecal sample. The methods described herein may be applicable to more than just humans. Thus, a variety of veterinary applications are contemplated, in which case the patient sample may be a sample collected from a non-human mammal (e.g., a feline, a pig, an equine, a bovine, etc.).

[00103] Термин «биологическая жидкость» в настоящем документе относится к жидкости, взятой из биологического источника, и включает, например, кровь, серозный экссудат, плазму, мокроту, лаваж, спинномозговую жидкость, мочу, семя, пот, слезную жидкость, слюну и т. п. Используемые в настоящем документе термины «кровь», «плазма» и «серозный экссудат» относятся к фракциям или их обработанным частям. Аналогичным образом, в случае, если образец получают путем выполнения биопсии, взятия смыва, мазка и т. д., термин «образец» обозначает обработанную фракцию или часть, полученную путем выполнения биопсии, взятия смыва, мазка и т. д. [00103] The term "biological fluid" as used herein refers to a fluid taken from a biological source and includes, for example, blood, serous exudate, plasma, sputum, lavage, cerebrospinal fluid, urine, semen, sweat, tears, saliva, etc. The terms "blood", "plasma", and "serous exudate" as used herein refer to fractions or processed portions thereof. Similarly, if a sample is obtained by performing a biopsy, taking a wash, smear, etc., the term "sample" refers to a processed fraction or portion obtained by performing a biopsy, taking a wash, smear, etc.

[00104] Термин «соответствующий», используемый в настоящем документе, иногда относится к нуклеотидной последовательности, например, гену или хромосоме, которая присутствует в геноме разных субъектов и которая не обязательно имеет одинаковую последовательность во всех геномах, однако служит для определения, а не для предоставления генетической информации об исследуемой последовательности, например гене или хромосоме. [00104] The term "corresponding" as used herein sometimes refers to a nucleotide sequence, such as a gene or chromosome, that is present in the genome of different subjects and that does not necessarily have the same sequence in all genomes, but serves to define, rather than provide genetic information about, the sequence, such as a gene or chromosome, being examined.

[00105] Термин «хромосома», используемый в настоящем документе, относится к несущему наследственность генному носителю живой клетки, который состоит из хроматиновых цепей, содержащих ДНК и белковые компоненты (в частности, гистоны). В настоящем документе используется стандартная международно признанная система нумерации отдельных хромосом генома человека. [00105] The term "chromosome" as used herein refers to a hereditary gene carrier of a living cell, which consists of chromatin chains containing DNA and protein components (particularly histones). The standard internationally recognized numbering system for individual chromosomes of the human genome is used herein.

[00106] Термин «длина полинуклеотида», используемый в настоящем документе, относится к абсолютному числу мономерных субъединиц (нуклеотидов) нуклеиновой кислоты в последовательности или в области эталонного генома. Термин «длина хромосомы» относится к известной длине хромосомы, заданной парами нуклеотидных оснований, например приведенная в сборке NCBI36/hg18 человеческой хромосомы, данные которой можно найти в сети Интернет по следующему адресу: |genome|.|ucsc|.|edu/cgi- bin/hgTracks?hgsid=167155613&chromInfoPage=. [00106] The term "polynucleotide length" as used herein refers to the absolute number of monomeric subunits (nucleotides) of nucleic acid in a sequence or region of a reference genome. The term "chromosome length" refers to a known chromosome length defined by nucleotide base pairs, such as that given in the NCBI36/hg18 human chromosome assembly, data for which can be found on the Internet at the following address: |genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=.

[00107] Термины «субъект» и «пациент», используемые в настоящем документе, обозначают субъекта-человека, а также субъекта, не являющегося человеком, такого как млекопитающее, беспозвоночное, позвоночное, грибок, дрожжевые грибы, бактерия и вирус. Несмотря на то, что примеры и терминология, используемые в настоящем документе, относятся к организму человека, концепции, описанные в настоящем документе, применимы к геномам любых растений или животных и могут применяться в области ветеринарной медицины, зоотехники, лабораторных исследований и т. п. [00107] The terms "subject" and "patient" as used herein refer to a human subject as well as a non-human subject such as a mammal, an invertebrate, a vertebrate, a fungus, a yeast, a bacterium, and a virus. Although the examples and terminology used herein refer to the human body, the concepts described herein are applicable to the genomes of any plant or animal and may be applied in the fields of veterinary medicine, animal science, laboratory research, etc.

[00108] Используемый в настоящем документе термин «праймер» относится к выделенному олигонуклеотиду, который способен играть роль точки инициации синтеза при помещении в условия, являющиеся индуктивными по отношению к синтезу продукта достройки (например, такие условия подразумевают присутствие нуклеотидов, средства для индукции, такого как ДНК-полимераза, подходящую температуру и pH). Праймер может быть предпочтительно одноцепочечным для обеспечения максимальной эффективности амплификации, но также может быть двухцепочечным. В случае, если праймер является двухцепочечным, его сначала обрабатывают для разделения спиралей перед его использованием для получения продуктов достройки. Праймер может представлять собой олигодезоксирибонуклеотид. Праймер является достаточно длинным для инициации процесса синтеза продуктов достройки при наличии средства для индукции. Точные длины праймеров зависят от многих факторов, включая температуру, источники праймеров, а также способы и параметры, используемые при создании праймеров. [00108] As used herein, the term "primer" refers to an isolated oligonucleotide that is capable of acting as an initiation point for synthesis when placed under conditions that are inductive with respect to the synthesis of an extension product (e.g., such conditions include the presence of nucleotides, an inducing agent such as DNA polymerase, a suitable temperature and pH). The primer may preferably be single-stranded to ensure maximum amplification efficiency, but may also be double-stranded. If the primer is double-stranded, it is first treated to separate the strands before it is used to obtain extension products. The primer may be an oligodeoxyribonucleotide. The primer is long enough to initiate the process of synthesis of extension products in the presence of an inducing agent. The exact lengths of primers depend on many factors, including temperature, sources of primers, and the methods and parameters used in creating the primers.

5.2. Введение5.2. Introduction

[00109] Короткие тандемные повторы (КТП) встречаются повсеместно в геноме человека. Несмотря на то, что биологическая составляющая КТП еще не полностью изучена, новые доказательства свидетельствуют о том, что КТП играют важную роль в основных клеточных процессах. [00109] Short tandem repeats (STRs) are found throughout the human genome. Although the biology of STRs is not yet fully understood, emerging evidence suggests that STRs play important roles in fundamental cellular processes.

[00110] Экспансии повторов представляют собой это особый класс микросателлитных и минисателлитных вариантов, включающих полиморфизмы КТП. Экспансии повторов также называются динамическими мутациями вследствие их нестабильности в случаях, когда короткие тандемные повторы расширяются сверх определенных размеров. Экспансии КТП являются основной причиной более 20 тяжелых неврологических расстройств, включая боковой амиотрофический склероз, атаксию Фридрейха (FRDA), болезнь Хантингтона (БХ) и синдром ломкой X-хромосомы. В Таблице 1 представлено небольшое число патогенных экспансий повторов, отличных от последовательностей повторов в нормальных образцах. В столбцах проиллюстрированы гены, ассоциированные с последовательностями повторов, нуклеотидные последовательности повторяющихся звеньев, числа повторов повторяющихся звеньев в нормальных и патогенных последовательностях и заболевания, связанные с экспансиями повторов. [00110] Repeat expansions are a special class of microsatellite and minisatellite variants that include STR polymorphisms. Repeat expansions are also called dynamic mutations due to their instability, where short tandem repeats expand beyond a certain size. STR expansions are the underlying cause of more than 20 severe neurological disorders, including amyotrophic lateral sclerosis, Friedreich's ataxia (FRDA), Huntington's disease (HD), and fragile X syndrome. Table 1 presents a small number of pathogenic repeat expansions that differ from repeat sequences in normal samples. The columns illustrate the genes associated with the repeat sequences, the nucleotide sequences of the repeat units, the repeat unit repeat numbers in normal and pathogenic sequences, and the diseases associated with the repeat expansions.

Таблица 1. Примеры патогенных экспансий повторовTable 1. Examples of pathogenic repeat expansions ГенGene ПовторRepeat НормальнаяNormal ПатогеннаяPathogenic ЗаболеваниеDisease FMR1FMR1 CGGCGG 6-606-60 200-900200-900 Ломкая X-хромосомаFragile X chromosome ARAR CAGCAG 9-369-36 38-6238-62 Спинобульбарная мышечная атрофияSpinobulbar muscular atrophy GHTTGHT CAGCAG 11-3411-34 40-12140-121 Болезнь ХантингтонаHuntington's disease FXNFXN GAAGAA 6-326-32 200-1700200-1700 Атаксия ФридрейхаFriedreich's ataxia ATXN1ATXN1 CAGCAG 6-396-39 40-8240-82 Спиномозжечковая атаксияSpinocerebellar ataxia ATXN10ATXN10 ATTCTATTCT 10-2010-20 500-4500500-4500 Спиномозжечковая атаксияSpinocerebellar ataxia ATXN2ATXN2 CAGCAG 15-2415-24 32-20032-200 Спиномозжечковая атаксияSpinocerebellar ataxia ATXN3ATXN3 CAGCAG 13-3613-36 61-8461-84 Спиномозжечковая атаксияSpinocerebellar ataxia ATXN7ATXN7 CAGCAG 4-354-35 37-30637-306 Спиномозжечковая атаксияSpinocerebellar ataxia C9ofr72C9ofr72 GGGGCCGGGGCC < 30< 30 100’s100's АБСABS

[00111] Генетические заболевания, связанные с экспансиями повторов, во многих отношениях являются гетерогенными. размер повторяющегося звена, степень экспансии, местоположение относительно затронутого гена и патогенный механизм могут различаться в зависимости от заболевания. Например, АБС включает в себя экспансию повторов гексануклеотидов нуклеотидов GGGGCC в гене C9orf72, расположенном на коротком плече открытой рамки считывания 72 хромосомы 9. Напротив, синдром ломкой X-хромосомы связан с экспансией тринуклеотидного повтора CGG (триплетного повтора), влияющей на ген 1 (FMR1) на X-хромосоме, являющийся причиной задержки умственного развития при синдроме ломкой X-хромосомы. Экспансия повторов CGG может привести к неспособности экспрессировать белок FMRP, отсутствие которого приводит к задержке умственного развития при синдроме ломкой X-хромосомы и наличие которого является обязательным для нормального развития нервной системы. В зависимости от длины повтора CGG аллель можно классифицировать как нормальный (не подверженный влиянию синдрома), премутационный (подверженный риску развития расстройств, связанных с ломкостью X-хромосомы) или полностью мутировавший (обычно подверженный влиянию синдрома). В соответствии с различными оценками, существует от 230 до 4 000 повторов CGG в мутированных генах FMR1, вызывающих синдром ломкой X-хромосомы у больных, по сравнению с 60 до 230 повторов у носителей, склонных к атаксии, и от 5 до 54 повторов у здоровых субъектов. Экспансия повторов гена FMR1 является причиной проявлений аутизма, так как было обнаружено, что у около 5% пациентов, страдающих аутизмом, экспансия повторов гена FMR1 является причиной аутизма. McLennan, et al. (2011), Fragile × Syndrome, Current Genomics 12 (3): 216-224. Окончательная диагностика синдрома ломкой X-хромосомы включает в себя выполнения генетического тестирования для определения числа повторов CGG. [00111] Genetic diseases associated with repeat expansions are heterogeneous in many respects. The size of the repeat unit, the extent of the expansion, the location relative to the affected gene, and the pathogenic mechanism may vary depending on the disease. For example, ABS involves an expansion of the GGGGCC hexanucleotide repeat in the C9orf72 gene, located on the short arm of open reading frame 72 of chromosome 9. In contrast, fragile X syndrome is associated with an expansion of the CGG trinucleotide repeat (triplet repeat) affecting gene 1 ( FMR1) on the X chromosome, which is the cause of mental retardation in fragile X syndrome. The expansion of CGG repeats can result in the failure to express FMRP, the absence of which causes mental retardation in fragile X syndrome and whose presence is essential for normal neurodevelopment. Depending on the length of the CGG repeat, the allele can be classified as normal (not affected by the syndrome), premutation (at risk of developing fragile X disorders), or fully mutated (usually affected by the syndrome). According to various estimates, there are between 230 and 4,000 CGG repeats in the mutated FMR1 genes that cause fragile X syndrome in affected individuals, compared with 60 to 230 repeats in ataxia-prone carriers and 5 to 54 repeats in healthy subjects. FMR1 gene repeat expansion is a cause of autism spectrum disorder, as it has been found that about 5% of patients with autism have FMR1 gene repeat expansion as a cause of autism. McLennan, et al. (2011), Fragile × Syndrome, Current Genomics 12 (3): 216–224. Definitive diagnosis of fragile X syndrome involves genetic testing to determine the number of CGG repeats.

[00112] Во многих исследованиях были выявлены различные общие свойства заболеваний, связанных с экспансией повторов. Экспансия повторов или динамическая мутация обычно проявляется в виде увеличения числа повторов, причем скорость такой мутации связана с числом повторов. Редкие явления, такие как потеря разрыва повторов, могут привести к увеличению вероятности экспансии аллелей; такие события называются неблагоприятными событиями. Может существовать взаимосвязь между количеством повторов в последовательности повторов и тяжестью заболевания, вызванного экспансией повторов, и/или его развитием. [00112] Many studies have identified various common properties of repeat expansion diseases. Repeat expansion or dynamic mutation typically manifests itself as an increase in the number of repeats, with the rate of such mutation being related to the number of repeats. Rare events, such as loss of a repeat break, can lead to an increased likelihood of allelic expansion; such events are called adverse events. There may be a relationship between the number of repeats in a repeat sequence and the severity of the repeat expansion disease and/or its progression.

[00113] Таким образом, выявление экспансий повторов играет важную роль в диагностике и лечении различных заболеваний. Однако определение последовательностей повторов, особенно с использованием прочтений, которые не полностью охватывают последовательность повторов, сопряжена с рядом проблем. Во-первых, сложно выровнять повторы с эталонной последовательностью, поскольку отсутствует четкое взаимно-однозначное сопоставление между прочтением и эталонным геномом. Кроме того, даже если прочтение выровнено с эталонной последовательностью, прочтения часто являются слишком короткими для полного покрытия значимой с медицинской точки зрения последовательности повторов. Например, прочтения могут иметь длину около 100 п. н. о. Для сравнения, экспансия повторов может охватывать от сотен до тысяч пар нуклеотидных оснований. Например, при синдроме ломкой X-хромосомы ген FMR1 может иметь более 1 000 повторов, охватывающих более 3 000 п. н. о. Таким образом, прочтение длиной 100 п. н. о. не может сопоставлять полную длину экспансии повторов. Кроме того, сборка коротких прочтений в более длинную последовательность не позволяет преодолеть проблему коротких прочтений и длинных повторов, поскольку сборка коротких прочтений в более длинную последовательность является труднореализуемой из-за неоднозначности выравнивания повторов в рамках одного прочтения с повторами в другом прочтении. [00113] Thus, the detection of repeat expansions plays an important role in the diagnosis and treatment of various diseases. However, determining repeat sequences, especially using reads that do not completely cover the repeat sequence, is associated with several challenges. First, it is difficult to align repeats to a reference sequence because there is no clear one-to-one mapping between the read and the reference genome. Furthermore, even if a read is aligned to a reference sequence, the reads are often too short to completely cover the medically significant repeat sequence. For example, reads can be approximately 100 bp in length. In comparison, repeat expansions can span hundreds to thousands of base pairs. For example, in fragile X syndrome, the FMR1 gene can have over 1,000 repeats spanning over 3,000 bp. Thus, a 100 bp long read cannot match the full length of the repeat expansion. In addition, assembling short reads into a longer sequence does not overcome the problem of short reads and long repeats, since assembling short reads into a longer sequence is difficult due to the ambiguity of the alignment of repeats within one read with repeats in another read.

[00114] Выравнивание является первичной причиной потери информации либо из-за неполноты эталонной последовательности, неуникального соответствия между прочтением и сайтами на эталонной последовательности, либо значительных отклонений от эталонной последовательности. Систематические ошибки секвенирования и другие проблемы, влияющие на точность прочтения, являются вторичной причиной неудач при обнаружении последовательностей повторов. В некоторых протоколах эксперимента около 7% прочтений не являются выровненными или по шкале MAPQ имеют балл, равный 0. Даже если исследователи работают над улучшением технологии секвенирования и средств анализа, всегда будут наблюдать значительное количество невыровненных и плохо выровненных прочтений. Варианты реализации способов выявления экспансий повторов, описанных в настоящем документе, основаны на определении невыровненных или плохо выровненных прочтений. [00114] Alignment is the primary cause of information loss, either due to incomplete reference sequences, non-unique correspondence between reads and sites on the reference sequence, or significant deviations from the reference sequence. Systematic sequencing errors and other issues that affect read accuracy are secondary causes of failure to detect repeat sequences. In some experimental protocols, approximately 7% of reads are unaligned or have a MAPQ score of 0. Even as researchers work to improve sequencing technology and analysis tools, there will always be a significant number of unaligned and poorly aligned reads. Embodiments of the repeat expansion detection methods described herein rely on detecting unaligned or poorly aligned reads.

[00115] Способы, в которых используются длинные прочтения для обнаружения экспансии повторов, имеют определенные недостатки. В контексте секвенирования следующего поколения доступные в настоящее время технологии, в которых используются более длинные прочтения, являются более медленными и склонными к появлению ошибок, чем технологии, в которых используются более короткие прочтения. Более того, в некоторых областях применения невозможно выполнять длинные прочтения, например, при секвенировании свободно-клеточных ДНК. Свободно-клеточная ДНК, полученная из материнской крови, может быть использована для пренатальной генетической диагностики. Свободно-клеточная ДНК существует в виде фрагментов, которые. как правило, короче 200, при использовании свободно-клеточной ДНК. В вариантах реализации способов, описанных в настоящем документе, используются короткие прочтения для определения экспансий повторов, значимых с медицинской точки зрения. [00115] Methods that use long reads to detect repeat expansions have certain disadvantages. In the context of next-generation sequencing, currently available technologies that use longer reads are slower and more prone to errors than technologies that use shorter reads. Moreover, in some applications, long reads are not feasible, such as in cell-free DNA sequencing. Cell-free DNA obtained from maternal blood can be used for prenatal genetic diagnosis. Cell-free DNA exists in fragments that are typically shorter than 200 when using cell-free DNA. Embodiments of the methods described herein use short reads to detect medically significant repeat expansions.

[00116] Более того, традиционные способы не предназначены для обработки сложных локусов, содержащих множество повторов. Важными примерами таких локусов являются повтор CAG, вызывающий БХ, фланкированный повтором CCG, повтор GAA, вызывающий FRDA, фланкированный гомополимером аденозина, и повтор CAG, вызывающий спиномозжечковую атаксию 8 типа (SCA8), фланкированную повтором ACT. Еще более ярким примером является повтор CCTG в гене CNBP, экспансии которого вызывают миотоническую дистрофию 2 типа (DM2). Данный повтор является смежным с полиморфными повторами TG и TCTG (J. E. Lee and Cooper 2009), что особенно затрудняет точное выравнивание прочтений с этим локусом. Другим типом комплексного повтора является полиаланиновый повтор, на настоящий момент связанный с по меньшей мере девятью расстройствами (Shoubridge and Gecz 2012). Полиаланиновые повторы состоят из повторов кодонов a-аминокислот GCA, GCC, GCG или GCT. [00116] Moreover, conventional methods are not designed to handle complex loci containing multiple repeats. Important examples of such loci include the HD-causing CAG repeat flanked by a CCG repeat, the FRDA-causing GAA repeat flanked by an adenosine homopolymer, and the spinocerebellar ataxia type 8 (SCA8)-causing CAG repeat flanked by an ACT repeat. An even more striking example is the CCTG repeat in the CNBP gene, expansions of which cause myotonic dystrophy type 2 (DM2). This repeat is adjacent to polymorphic TG and TCTG repeats (JE Lee and Cooper 2009), making precise alignment of reads to this locus particularly challenging. Another type of complex repeat is the polyalanine repeat, which has been linked to at least nine disorders to date (Shoubridge and Gecz 2012). Polyalanine repeats consist of repeats of the a-amino acid codons GCA, GCC, GCG, or GCT.

[00117] Кластеры вариантов могут влиять на выравнивание и точность генотипирования (Lincoln et al. 2019). Варианты, смежные с полиморфными последовательностями низкой сложности, могут быть сопряжены с дополнительными проблемами, поскольку способы обнаружения вариантов могут приводить к выведению кластеров неверно представленных или ложных распознаваний вариантов в таких геномных областях. Это, в частности, связано с повышенной частотой возникновения ошибок в таких областях данных секвенирования (Benjamini and Speed 2012; Dolzhenko et al. 2017). Одним из примеров является однонуклеотидный вариант (ОНВ), смежный с гомополимером аденозина в гене MSH2, который вызывает синдром Линча I (Frogatt et al. 1999). [00117] Variant clusters can impact genotyping alignment and accuracy (Lincoln et al. 2019). Variants adjacent to low-complexity polymorphic sequences may present additional challenges, as variant detection methods may infer clusters of misrepresented or false variant calls in such genomic regions. This is particularly due to the increased error rates in such regions of sequencing data (Benjamini and Speed 2012; Dolzhenko et al. 2017). One example is the single nucleotide variant (SNV) adjacent to the adenosine homopolymer in the MSH2 gene, which causes Lynch syndrome I (Frogatt et al. 1999).

[00118] В рамках вариантов реализации, описанных в настоящем документе, могут выполнять обработку сложных локусов, как описано выше. В них используют граф последовательности в качестве общей гибкой модели каждого целевого локуса. [00118] Embodiments described herein may handle complex loci as described above. They use a sequence graph as a general flexible model of each target locus.

[00119] В некоторых вариантах реализации в рамках описанных способов решают вышеупомянутые проблемы при определении и распознавании экспансии повторов путем использования парного концевого секвенирования. Парное концевое секвенирование включает фрагментирование ДНК для образования последовательностей, называемых вставками. В некоторых протоколах, в том числе протоколах, используемых Illumina, прочтения с более коротких вставок (например, от десятков до сотен п. н. о.), называют парными концевыми прочтениями с короткими вставками или парными концевыми прочтениями. В противоположность этому, прочтения из более длинных вставок (например, порядка нескольких тысяч п. н. о.) называют прочтениями сопряженных пар. Как отмечалось выше, в различных вариантах реализации способов, описанных в настоящем документе, могут использовать как парные концевые прочтения с короткими вставками, так и прочтения сопряженных пар с длинными вставками. [00119] In some embodiments, the disclosed methods address the above-mentioned problems in detecting and recognizing repeat expansions by using paired-end sequencing. Paired-end sequencing involves fragmenting DNA to form sequences called inserts. In some protocols, including those used by Illumina, reads from shorter inserts (e.g., tens to hundreds of bp) are referred to as short insert paired-end reads or paired-end reads. In contrast, reads from longer inserts (e.g., on the order of several thousand bp) are referred to as mate-paired reads. As noted above, various embodiments of the methods described herein may use both short insert paired-end reads and long insert mate-paired reads.

[00120] Фиг. 1A представляет собой схематическую иллюстрацию, демонстрирующую определенные сложности при выравнивании прочтений последовательности с последовательностью повторов на эталонной последовательности, особенно при выравнивании прочтений последовательности, полученных из образца последовательности длинных повторов, имеющей экспансию повторов. В нижней части Фиг. 1A проиллюстрирована эталонная последовательность 101 с относительно короткой последовательностью повторов 103, изображенной вертикальными штриховыми линиями. В середине фигуры проиллюстрирована гипотетическая последовательность 105 образца, отобранного у пациента, имеющего последовательность длинных повторов 107 с экспансией повторов, которая такжеизображена вертикальными штриховыми линиями. В верхней части рисунка представлены прочтения последовательностей 109 и 111, проиллюстрированные в местоположениях соответствующих сайтов последовательности образца 105. В некоторых из данных прочтений последовательностей, например, прочтений 111, некоторые пары нуклеотидных оснований берут начало из последовательности длинных повторов 107, изображенной вертикальными штриховыми линиями и обведенной кругом. Прочтения 111, имеющие эти повторы, потенциально трудно поддаются выравниванию с эталонной последовательностью 101, поскольку такие повторы не имеют четких местоположений на эталонной последовательности 101. Поскольку эти потенциально невыровненные прочтения не могут быть четко связаны с последовательностью повторов 103 в эталонной последовательности 101, получение информации о последовательности повторов и экспансии последовательности повторов из этих потенциально невыровненных прочтений 111 является труднореализуемым. Кроме того, поскольку эти прочтения, как правило, являются более короткими, чем последовательность длинных повторов 107, имеющая экспансию повторов, и они не могут предоставлять исчерпывающую информацию об типе или местонахождении последовательности повторов 107. Кроме того, повторы в прочтениях 111 затрудняют их сборку из-за неоднозначности их местоположений на эталонной последовательности 101 и неоднозначности отношений между прочтениями 111. Прочтения, частично принадлежащие к последовательности длинных повторов 107 в образце, наполовину заштрихованные и наполовину закрашенные черным цветом в иллюстрации, могут быть выровнены основаниями, не принадлежащими к последовательности повторов 107. Если прочтения содержат слишком мало пар нуклеотидных оснований за пределами последовательности повторов 107, прочтения могут плохо выравниваться или вовсе не выравниваться. Таким образом, некоторые из этих прочтений с частичными повторами можно анализировать в качестве базовых прочтений, а другие анализировать в качестве закрепленных прочтений, как дополнительно описано ниже. [00120] Fig. 1A is a schematic illustration demonstrating certain difficulties in aligning sequence reads to a repeat sequence on a reference sequence, particularly when aligning sequence reads obtained from a sample of a long repeat sequence having a repeat expansion. The lower portion of Fig. 1A illustrates a reference sequence 101 with a relatively short repeat sequence 103, depicted by vertical dashed lines. The middle portion of the figure illustrates a hypothetical sequence 105 of a sample taken from a patient having a long repeat sequence 107 with a repeat expansion, also depicted by vertical dashed lines. The upper portion of the figure shows sequence reads 109 and 111 plotted at the locations of the corresponding sites in the sample 105 sequence. In some of these sequence reads, such as reads 111, some base pairs originate from the long repeat sequence 107, depicted by the vertical dashed lines and circled. Reads 111 having these repeats are potentially difficult to align with the reference sequence 101 because such repeats do not have clear locations on the reference sequence 101. Because these potentially unaligned reads cannot be clearly linked to the repeat sequence 103 in the reference sequence 101, obtaining repeat sequence information and repeat sequence expansion from these potentially unaligned reads 111 is difficult. In addition, since these reads are generally shorter than the long 107 repeat sequence having a repeat expansion, they cannot provide comprehensive information about the type or location of the 107 repeat sequence. In addition, the repeats in the 111 reads make their assembly difficult due to the ambiguity of their locations on the 101 reference sequence and the ambiguity of the relationships between the 111 reads. Reads partially belonging to the long 107 repeat sequence in the sample, half shaded and half black in the illustration, may be aligned with bases that do not belong to the 107 repeat sequence. If the reads contain too few base pairs outside the 107 repeat sequence, the reads may align poorly or not at all. Thus, some of these reads with partial repeats can be analyzed as base reads, while others can be analyzed as anchored reads, as further described below.

[00121] На Фиг. 1B представлена принципиальная схема, иллюстрирующая то, как парные концевые прочтения можно использовать в некоторых описанных вариантах реализации для преодоления трудностей, проиллюстрированных на Фиг. 1A. При парном концевом секвенировании секвенирование происходит с обоих концов фрагментов нуклеиновых кислот в исследуемом образце. В нижней части Фиг. 1B представлена эталонная последовательность 101 и последовательность образца 105, а также прочтения 109 и 111, эквивалентные проиллюстрированным на Фиг. 1A. Сверху на Фиг. 1B проиллюстрирован фрагмент 125, полученный из последовательности исследуемого образца 105, и область праймеров 131 прочтения 1, а также область праймеров 133 прочтения 2 для получения двух прочтений 135 и 137 парных концевых прочтений. Фрагмент 125 также упоминается в качестве вставки для парных концевых прочтений. В некоторых вариантах реализации вставки можно амплифицировать с применением или без применения ПЦР. Некоторые последовательности повторов, такие как последовательности, включающие большое количество повторов GC или GCC, не могут быть достаточно качественно секвенированы традиционными способами, включающими ПЦР-амплификацию. Амплификация таких последовательностей могут проводить без применения ПЦР. Амплификация других последовательностей могут проводить с применением ПЦР [00121] Fig. 1B is a schematic diagram illustrating how paired end reads can be used in some of the described embodiments to overcome the difficulties illustrated in Fig. 1A. In paired end sequencing, sequencing occurs from both ends of nucleic acid fragments in a sample of interest. The bottom portion of Fig. 1B shows a reference sequence 101 and a sample sequence 105, as well as reads 109 and 111 equivalent to those illustrated in Fig. 1A. The top portion of Fig. 1B shows fragment 125 derived from the sequence of sample of interest 105, and the region of primers 131 of read 1, as well as the region of primers 133 of read 2, to produce two paired end reads 135 and 137. Fragment 125 is also referred to as an insert for the paired end reads. In some embodiments, inserts can be amplified with or without PCR. Some repeat sequences, such as those containing a large number of GC or GCC repeats, cannot be sequenced with sufficient quality by traditional methods involving PCR amplification. Such sequences can be amplified without PCR. Other sequences can be amplified using PCR.

[00122] Вставка 125, изображенная на Фиг. 1B, получена из участка или соответствует участку последовательности образца 105, сбоку от которой расположены две вертикальные стрелки, изображенные в нижней половине рисунка. В частности, вставка 125 содержит повторяющуюся секцию 127, соответствующую части длинного повтора 107 в последовательности образца 105. Длину вставок можно регулировать в зависимости от области применения. В некоторых вариантах реализации вставки могут быть несколько короче, чем исследуемая последовательность повторов или последовательность повторов, имеющая экспансию повторов. В других вариантах реализации вставки могут иметь длину, аналогичную последовательности повторов или последовательности повторов с экспансией повторов. В других вариантах реализации вставки могут быть даже несколько длиннее последовательности повторов или последовательности повторов с экспансией повторов. В некоторых вариантах реализации такие вставки могут представлять собой длинные вставки для выполнения секвенирования сопряженных пар в некоторых вариантах реализации, дополнительно описанных ниже. Как правило, прочтения, полученные из вставок, являются более короткими, чем последовательность повторов. Поскольку вставки длиннее прочтений, парные концевые прочтения могут лучше захватывать сигналы при более длительном отрезке последовательности повторов в образце, чем одиночные концевые прочтения. [00122] Insert 125 shown in Fig. 1B is obtained from or corresponds to a region of the sequence of sample 105, to the side of which are two vertical arrows shown in the lower half of the figure. In particular, insert 125 comprises a repeating section 127 corresponding to a portion of the long repeat 107 in the sequence of sample 105. The length of the inserts can be adjusted depending on the application. In some embodiments, the inserts can be somewhat shorter than the repeat sequence under study or the repeat sequence having a repeat expansion. In other embodiments, the inserts can have a length similar to the repeat sequence or the repeat sequence with a repeat expansion. In other embodiments, the inserts can even be somewhat longer than the repeat sequence or the repeat sequence with a repeat expansion. In some embodiments, such inserts can be long inserts for performing mate pair sequencing in some embodiments, described further below. Typically, reads derived from inserts are shorter than the repeat sequence. Since inserts are longer than reads, paired end reads can better capture signals over a longer stretch of repeat sequence in a sample than single end reads.

[00123] Показанная вставка 125 имеет две области праймеров прочтения 131 и 133 на двух концах вставки. В некоторых вариантах реализации области праймеров прочтения являются свойственными вставке. В других вариантах реализации области праймеров вводят во вставку путем лигирования или достройки. На левом конце вставки изображена область праймеров 131 прочтения 1, которая позволяет гибридизировать праймер 132 прочтения 1 со вставкой 125. В результате достройки праймера 132 прочтения 1 генерируют первое прочтение или прочтение 1, обозначенное как 135. На правом конце вставки 125 изображена область праймеров 133 прочтения 2, которая позволяет гибридизировать праймер 134 прочтения 2 со вставкой 125, инициируя второе прочтение или прочтение 2, помеченное числом 137. В некоторых вариантах реализации вставка 125 может также включать в себя индексные области, снабженные штрихкодом (не проиллюстрированы на фигуре), что позволяет выполнять определениеикацию различных образцов в процессе многоканального секвенирования. В некоторых вариантах реализации парные концевые прочтения 135 и 137 могут быть получены путем секвенирования Illumina с помощью платформ для синтеза. Пример процесса секвенирования, реализованного на такой платформе, дополнительно описан ниже в разделе «Способы секвенирования», в ходе которого создают два парных концевых прочтения и два индексных прочтения. [00123] The illustrated insert 125 has two readout primer regions 131 and 133 at the two ends of the insert. In some embodiments, the readout primer regions are inherent to the insert. In other embodiments, the primer regions are introduced into the insert by ligation or extension. At the left end of the insert, a region of read 1 primers 131 is depicted that allows read 1 primer 132 to hybridize with insert 125. As a result of primer extension 132, reads 1 generate a first read or read 1, designated as 135. At the right end of insert 125, a region of read 2 primers 133 is depicted that allows read 2 primer 134 to hybridize with insert 125, initiating a second read or read 2, labeled as 137. In some embodiments, insert 125 may also include index regions provided with a barcode (not illustrated in the figure), which allows for detection of different samples during multi-channel sequencing. In some embodiments, paired end reads 135 and 137 can be obtained by Illumina sequencing using synthesis platforms. An example of a sequencing workflow implemented on such a platform is further described below in the Sequencing Methods section, which generates two paired-end reads and two index reads.

[00124] Затем парные концевые прочтения, полученные способом, изображенным на Фиг. 1B, могут быть выровнены с эталонной последовательностью 101, имеющей относительно короткую последовательность повторов 103. Таким образом, известно относительное местоположение и направление пары прочтений. Это позволяет косвенно связать невыровненное или плохо выровненное прочтение, например указанное в круге 111, с последовательностью относительно длинных повторов 107 в последовательности образца 105 посредством соответствующего парного прочтения 109, как указано в нижней части Фиг. 1B. В иллюстративном примере прочтения, полученные в результате парного концевого секвенирования, составляют около 100 п. н. о., а вставки составляют около 500 п. н. о. В данной иллюстративной конфигурации относительные местоположения двух парных концевых прочтений находятся на расстоянии около 300 пар нуклеотидных оснований от их 3’ концов и имеют противоположные направления. Соотношение между парами прочтений позволяет лучше связывать прочтения с областями повторов. В некоторых случаях первое прочтение в паре выравнивается с последовательностью, не имеющей повторов, фланкирующей область повторов на эталонной последовательности, а второе прочтение в паре не выравнивается с эталоном должным образом. См., например, информацию о паре прочтений 109а и 111а, представленных в нижней половине Фиг. 1B, где первым прочтением является левое прочтение 109а, а вторым прочтением является правое прочтение 111a. Учитывая спаривание двух прочтений 109а и 111а, второе прочтение 111а может быть связано с областью повторов 107 в последовательности образца 105, несмотря на то, что второе прочтение 111а не может быть выровнено с эталонной последовательностью 101. Зная расстояние и направление второго прочтения 111а относительно первого прочтения 109а, можно дополнительно определить местоположение второго прочтения 111а в пределах длинной области повторов 107. В случае, если между повторами во втором прочтении 111а существует разрыв, также можно определить местоположение разрыва относительно эталонной последовательности 101. В настоящем описании прочтение, такое как левое прочтение 109a, которое выровнено с эталоном, называется базовым прочтением. Прочтение, такое как правое прочтение 111а, которое не выровнено с эталонной последовательностью, но сопряжено с базовым прочтением, называют закрепленным прочтением. Таким образом, невыровненная последовательность может быть связана с экспансией повторов. Таким образом, можно использовать короткие прочтения для обнаружения длинных экспансий повторов. Хотя проблема обнаружения экспансий повторов обычно возрастает с увеличением длины экспансии из-за сложности выполнения секвенирования; способы, описанные в настоящем документе, позволяют обнаруживать более высокий сигнал от более длинных последовательностей экспансии повторов, чем от более коротких последовательностей экспансии повторов. Это связано с тем, что по мере увеличения длины последовательности повторов или экспансии повторов, в области экспансии будет закреплено больше прочтений, и большее количество прочтений будет иметь вероятность попадания в область повторов, а также при каждом прочтении может происходить больше повторов. [00124] The paired end reads obtained by the method depicted in Fig. 1B can then be aligned to a reference sequence 101 having a relatively short repeat sequence 103. In this way, the relative location and direction of the pair of reads is known. This allows an unaligned or poorly aligned read, such as that indicated in circle 111, to be indirectly linked to the sequence of the relatively long repeats 107 in the sample sequence 105 via a corresponding paired read 109, as indicated in the lower portion of Fig. 1B. In an illustrative example, the reads obtained from paired end sequencing are about 100 bp and the inserts are about 500 bp. In this illustrative configuration, the relative locations of the two paired end reads are about 300 bp from their 3' ends and are in opposite directions. The relationship between pairs of reads allows for better association of reads with repeat regions. In some cases, the first read in a pair aligns with a non-repeat sequence flanking the repeat region on the reference sequence, while the second read in the pair does not align with the reference properly. See, for example, the information on the pair of reads 109a and 111a shown in the lower half of Fig. 1B, where the first read is the left read 109a and the second read is the right read 111a. Given the pairing of the two readings 109a and 111a, the second reading 111a can be associated with the region of repeats 107 in the sequence of the sample 105, despite the fact that the second reading 111a cannot be aligned with the reference sequence 101. Knowing the distance and direction of the second reading 111a relative to the first reading 109a, it is possible to further determine the location of the second reading 111a within the long region of repeats 107. In case there is a gap between the repeats in the second reading 111a, it is also possible to determine the location of the gap relative to the reference sequence 101. In the present description, a read such as the left reading 109a, which is aligned with the reference, is called a base read. A read such as the right reading 111a, which is not aligned with the reference sequence, but is paired with the base read, is called an anchored read. Thus, the unaligned sequence may be associated with a repeat expansion. Thus, short reads can be used to detect long repeat expansions. Although the problem of detecting repeat expansions usually increases with the length of the expansion due to the difficulty of performing sequencing, the methods described herein can detect a higher signal from longer repeat expansion sequences than from shorter repeat expansion sequences. This is because as the length of the repeat sequence or repeat expansion increases, more reads will be anchored in the expansion region, and more reads will have a probability of falling in the repeat region, and more repeats can occur with each read.

[00125] В некоторых вариантах реализации описанные способы включают анализ распределения частот количества повторов, обнаруженных в рамках базовых и закрепленных прочтений. В некоторых вариантах реализации анализируют исключительно закрепленные прочтения. В других вариантах реализации анализируют как базовые, так и закрепленные прочтения. Распределение исследуемого образца можно сравнить с критерием, полученным эмпирическим или теоретическим способом и использующимся для отделения незатронутых образцов от затронутых образцов. Таким образом, можно определять, имеется ли в исследуемом образце рассматриваемая экспансия повторов, и, соответственно, выполнять распознавание. [00125] In some embodiments, the described methods include analyzing the frequency distribution of the number of repeats detected within the base and anchored reads. In some embodiments, only the anchored reads are analyzed. In other embodiments, both the base and anchored reads are analyzed. The distribution of the sample under study can be compared to a criterion obtained empirically or theoretically and used to separate unaffected samples from affected samples. In this way, it can be determined whether the sample under study contains the repeat expansion in question and, accordingly, recognition can be performed.

[00126] В способах и устройстве, описанных в настоящем документе, может быть использована технология секвенирования следующего поколения (NGS), которая позволяет осуществлять массовое параллельное секвенирование. В определенных вариантах реализации клонально амплифицированные матрицы ДНК или одиночные молекулы ДНК секвенируют внутри проточной кюветы путем массового параллельного секвенирования (например, как описано в публикации Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]). Технологии секвенирования NGS включают в себя, без ограничений, пиросеквенирование, секвенирование путем синтеза с использованием терминаторов обратимых красителей, секвенирование путем лигирования олигонуклеотидных зондов и ионное полупроводниковое секвенирование. ДНК из отдельных образцов можно секвенировать по отдельности (т. е. выполнять одноканальное секвенирование) или ДНК из нескольких образцов можно объединять и секвенировать в виде индексированных геномных молекул (т. е. выполнять многоканальное секвенирование) в рамках одного сеанса секвенирования для создания до нескольких сотен миллионов прочтений последовательностей ДНК. Примеры технологий секвенирования, которые можно использовать для получения информации о последовательности в рамках настоящего способа, дополнительно описаны ниже. [00126] The methods and apparatus described herein may utilize next generation sequencing (NGS) technology that enables massively parallel sequencing. In certain embodiments, clonally amplified DNA templates or single DNA molecules are sequenced within a flow cell by massively parallel sequencing (e.g., as described in Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]). NGS sequencing technologies include, but are not limited to, pyrosequencing, reverse dye terminator synthesis sequencing, oligonucleotide probe ligation sequencing, and ion semiconductor sequencing. DNA from individual samples can be sequenced individually (i.e., single-channel sequencing) or DNA from multiple samples can be pooled and sequenced as indexed genomic molecules (i.e., multi-channel sequencing) in a single sequencing run to generate up to several hundred million DNA sequence reads. Examples of sequencing technologies that can be used to obtain sequence information in the present method are further described below.

[00127] Различные анализы экспансии повторов с применением образцов ДНК включают выравнивание или сопоставление прочтений последовательностей секвенатора с эталонной последовательностью. Эталонная последовательность может представлять собой последовательность целого генома, последовательность хромосомы, последовательность субхромосомной области и т. п. С точки зрения вычислительного процесса повторы создают неоднозначность при выравнивании, что, в свою очередь, может привести к ошибкам на уровне подсчета всей хромосомы. В разнообразных вариантах реализации парные концевые прочтения в сочетании с регулируемой длиной вставки могут помочь устранить неоднозначность при выравнивании последовательностей повторов и обнаруживать экспансию повторов. [00127] Various repeat expansion assays using DNA samples involve aligning or matching sequence reads from a sequencer to a reference sequence. The reference sequence may be a whole genome sequence, a chromosome sequence, a subchromosomal region sequence, etc. From a computational standpoint, repeats create ambiguities in alignment, which in turn may lead to errors at the level of whole chromosome counting. In various embodiments, paired end reads in combination with adjustable insert length may help to resolve ambiguities in repeat sequence alignment and detect repeat expansion.

Варианты генотипирования в локусе последовательности повторов с применением графа последовательностиGenotyping variants at the repeat sequence locus using sequence graph

[00128] На Фиг. 1C представлена блок-схема, иллюстрирующая процесс 140 генотипирования геномного локуса, содержащего последовательность повторов, в соответствии с некоторыми вариантами реализации. В некоторых вариантах реализации генетический локус заранее определен в каталоге вариантов, содержащем геномные положения и структуру локусов в геномных положениях. На Фиг. 1D, 1E и 1F проиллюстрированы три разных графа последовательности в соответствии с некоторыми вариантами реализации. [00128] Fig. 1C is a flow chart illustrating a process 140 for genotyping a genomic locus comprising a repeat sequence, according to some embodiments. In some embodiments, the genetic locus is predetermined in a catalog of variants comprising genomic positions and a structure of loci at the genomic positions. Figs. 1D, 1E, and 1F illustrate three different sequence graphs according to some embodiments.

[00129] На Фиг. 1G проиллюстрирована принципиальная схема процесса определения генотипов вариантов локуса HTT, содержащего две последовательности КТП, в соответствии с некоторыми вариантами реализации. На панели (a) Фиг. 1G изображена часть каталога вариантов, содержащего геномные локусы и спецификации локусов, в частности, их структуру. Например, без учета повторов, последовательность в локусе HTT представляет собой CAGCAACAGCGG (Посл. №: 2); последовательность в локусе CNBP представляет собой CAGGCAGACA (Посл. №: 3). [00129] Fig. 1G illustrates a schematic diagram of a process for determining genotypes of variants of an HTT locus containing two CTP sequences, according to some embodiments. Panel (a) of Fig. 1G depicts a portion of a variant catalog containing genomic loci and locus specifications, in particular their structure. For example, excluding repeats, the sequence at the HTT locus is CAGCAACAGCGG (SEQ ID NO: 2); the sequence at the CNBP locus is CAGGCAGACA (SEQ ID NO: 3).

[00130] На Фиг. 1H проиллюстрирована принципиальная схема процесса определения генотипов вариантов в локусе Lynch I, содержащем ОНВ и КТП, в соответствии с некоторыми вариантами реализации. На Фиг. 1H в рамке 162 проиллюстрирована общая структура спецификаций локуса, в рамке 163 отображен конкретный пример спецификации локуса Lynch I (MSH2). [00130] Fig. 1H illustrates a schematic diagram of the process for determining genotypes of variants at a Lynch I locus containing an OHB and a CTP, according to some embodiments. In Fig. 1H, box 162 illustrates the general structure of locus specifications, and box 163 depicts a specific example of a Lynch I (MSH2) locus specification.

[00131] В каталоге вариантов структуру локуса указывают с использованием ограниченного подмножества регулярного синтаксиса выражения. Например, область повторов, связанная с БХ, может определяться выражением (CAG)* CAACAG(CGG)* или Посл. №: 2 (без учета повторов), что означает, что она содержит переменные числа повторов CAG и CCG, разделенных разрывом CAACAG; область, связанная с областью FRDA, соответствует выражению (A)*(GAA)*; область, связанная с SCA8, соответствует выражению (CTA)*(CTG)*; область повторов DM2, состоящая из трех смежных повторов, определяется выражением (CAGG)*(CAGA)*(CA)* или Посл. №: 3 (без учета повторов); ОНВ MSH2 является смежным с гомополимером, вызывающим синдром Линча I, и соответствует выражению (A|T)(A)*. [00131] In the catalog of variants, the locus structure is specified using a limited subset of the regular expression syntax. For example, the HD-associated repeat region may be defined by the expression (CAG)* CAACAG(CGG)* or SEQ ID NO: 2 (excluding repeats), meaning that it contains variable numbers of CAG and CCG repeats separated by a CAACAG gap; the region associated with the FRDA region corresponds to the expression (A)*(GAA)*; the region associated with SCA8 corresponds to the expression (CTA)*(CTG)*; the DM2 repeat region, consisting of three contiguous repeats, is defined by the expression (CAGG)*(CAGA)*(CA)* or SEQ ID NO: 3 (excluding repeats); the MSH2 OHB is contiguous with the homopolymer causing Lynch syndrome I and corresponds to the expression (A|T)(A)*.

[00132] Кроме того, регулярные выражения могут содержать многоаллельные или «вырожденные» основные символы, которые могут быть указаны с помощью обозначения «Международного союза теоретической и прикладной химии» (ИЮПАК) («Перечень частично определенных оснований в нуклеотидных последовательностях. Рекомендации», 1984. Номенклатурный комитет Международного союза биохимиков (НК МСБ) »1986). [00132] In addition, regular expressions may contain multiallelic or "degenerate" base symbols, which may be specified using the International Union of Pure and Applied Chemistry (IUPAC) notation ("List of partially determined bases in nucleotide sequences. Recommendations", 1984. Nomenclature Committee of the International Union of Biochemists (IUBN)" 1986).

[00133] Частично определенные основания, соответствующие основаниям в вырожденных кодонах, в настоящем документе называются вырожденными основаниями. Вырожденные основания позволяют представлять определенные классы несовершенных повторов ДНК, в рамках которых, например, различные основания могут встречаться в одном и том же положении. Используя это обозначение, полиаланиновые повторы могут кодироваться выражением (GCN)*, а полиглутаминовые повторы могут кодироваться выражением (CAR)*. [00133] Partially defined bases corresponding to bases in degenerate codons are referred to herein as degenerate bases. Degenerate bases allow certain classes of imperfect DNA repeats to be represented, in which, for example, different bases can occur at the same position. Using this notation, polyalanine repeats may be encoded by the expression (GCN)*, and polyglutamine repeats may be encoded by the expression (CAR)*.

[00134] В некоторых вариантах реализации последовательность повторов, включенная в геномный локус, включает в себя последовательность коротких тандемных повторов (КТП). В некоторых вариантах реализации расширение FTR связано с синдромом ломкой X-хромосомы, боковым амиотрофическим склерозом (АБС), болезнью Хантингтона, атаксией Фридрейха, спиномозжечковой атаксией, спинобульбарной мышечной атрофией, миотонической дистрофией, болезнью Мачадо-Джозефа или дентато-рубро-паллидо-льюисовой атрофией. [00134] In some embodiments, the repeat sequence included in the genomic locus includes a short tandem repeat (STR) sequence. In some embodiments, the FTR expansion is associated with fragile X syndrome, amyotrophic lateral sclerosis (ALS), Huntington's disease, Friedreich's ataxia, spinocerebellar ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, or dentato-rubro-pallido-Lewis atrophy.

[00135] Процесс 140 включает в себя сбор прочтений последовательностей нуклеиновых кислот исследуемого образца из базы данных. См. блок 142. В некоторых вариантах реализации прочтения нуклеотидных последовательностей изначально выровнены с эталонным геномом, но в данном случае в рамках процесса выполняется повторное выравнивание прочтений последовательностей с исследуемым геномным локусом, как описано ниже. В альтернативных вариантах реализации прочтения можно непосредственно выравнивать с графом последовательности без первоначального выравнивания с эталонным геномом. [00135] Process 140 includes collecting nucleic acid sequence reads of a sample of interest from a database. See block 142. In some embodiments, the nucleotide sequence reads are initially aligned to a reference genome, but in this case, the process re-aligns the sequence reads to the genomic locus of interest, as described below. In alternative embodiments, the reads may be directly aligned to a sequence graph without first being aligned to a reference genome.

[00136] В рамках процесса 140 выполняется выравнивание прочтений последовательности с последовательностью геномного локуса, включающей в себя одну или более последовательностей повторов. См. блок 144. Последовательность геномного локуса представлена данными, хранящимися в системной памяти, где также хранится структура данных графа последовательности. граф последовательности включает в себя направленный граф, где вершины представляют собой нуклеотидные последовательности, а направленные ребра соединяют вершины. нуклеотидная последовательность, представленная вершиной, включает в себя одно или более нуклеотидных оснований. Граф последовательности включает в себя один или более собственных простых циклов . Каждый собственный простой цикл представляет собой последовательность повторов одной или более последовательностей повторов. Каждая последовательность повторов включает в себя повторы повторяющегося звена одного или более нуклеотидов. [00136] Process 140 aligns sequence reads with a genomic locus sequence that includes one or more repeat sequences. See block 144. The genomic locus sequence is represented by data stored in system memory, which also stores a sequence graph data structure. The sequence graph includes a directed graph where nodes represent nucleotide sequences and directed edges connect nodes. The nucleotide sequence represented by a node includes one or more nucleotide bases. The sequence graph includes one or more proper simple cycles. Each proper simple cycle is a repeat sequence of one or more repeat sequences. Each repeat sequence includes repeats of a repeat unit of one or more nucleotides.

[00137] В некоторых вариантах реализации прочтения последовательностей изначально выравнивают с эталонным геномом для определения геномных координат прочтений до того, как подмножество первоначально выровненных прочтений будет выровнено с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В некоторых вариантах реализации первоначально выровненные прочтения выровнены с графами последовательностей для определения экспансий повторов в диапазоне от нескольких десятков до нескольких тысяч областей (каждая область соответствует графу последовательности). Общее число первоначально выровненных прочтений, которые повторно выравнивают с графами последовательностей во время каждого применения вариантов реализации, может находиться в диапазоне от тысяч до множества миллионов прочтений. [00137] In some embodiments, sequence reads are initially aligned to a reference genome to determine genomic coordinates of the reads before a subset of the initially aligned reads are aligned to one or more sequence graphs representing one or more sequences of interest. In some embodiments, the initially aligned reads are aligned to sequence graphs to determine repeat expansions in a range of several tens to several thousand regions (each region corresponding to a sequence graph). The total number of initially aligned reads that are re-aligned to sequence graphs during each application of embodiments may range from thousands to many millions of reads.

[00138] В некоторых вариантах реализации прочтения, изначально выровненные с исследуемой последовательностью или локусом, выбирают в качестве подмножества прочтений, затем подмножество выравнивают с последовательностями повторов, каждая из которых представлена в графе последовательности, причем граф последовательности имеет один или более собственных простых циклов, и эти собственные простые циклы представляют одну или более последовательностей повторов. В разнообразных вариантах реализации прочтение, находящееся в пределах около 10, 50, 100, 500, 1 000, 2 000, 3 000, 4 000, 5 000, 6 000, 7 000, 8 000, 9 000, 10 000, 50 000, 100 000 оснований исследуемой последовательности или локуса, считается находящимся вблизи исследуемой последовательности или локуса. В некоторых вариантах реализации прочтение, находящееся в пределах около 1 000, 2 000, 3 000, 4 000, 5 000, 6 000, 7 000, 8 000, 9 000 или 10 000 оснований исследуемого локуса находится рядом с исследуемым локусом. Некоторые из необработанных прочтений могут изначально являться плохо выравненными, поскольку они, в том числе, включают последовательности повторов, выравнивание которых сложно выполнить в однозначной манере. В некоторых вариантах реализации прочтения, изначально являющиеся плохо выравненными (например, по результатам измерения с применением оценки выравнивания), но при этом спаренные с прочтением, выровненным с исследуемым локусом или пространством вблизи него (в паре прочтений с парными концами), выровнены с графом последовательности. В некоторых вариантах реализации прочтения, изначально выровненные с нецелевыми областями, которые представляют собой известные горячие точки для прочтения неправильного выравнивания, выровнены с графом последовательности. [00138] In some embodiments, reads initially aligned to a sequence or locus of interest are selected as a subset of reads, the subset is then aligned to repeat sequences, each of which is represented in a sequence graph, wherein the sequence graph has one or more of its own simple cycles, and the natural simple cycles represent one or more repeat sequences. In various embodiments, a read that is within about 10, 50, 100, 500, 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, 10,000, 50,000, 100,000 bases of the sequence or locus of interest is considered to be in the vicinity of the sequence or locus of interest. In some embodiments, a read that is within about 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, or 10,000 bases of a locus of interest is adjacent to the locus of interest. Some of the raw reads may be initially poorly aligned because they include, among other things, repeat sequences that are difficult to align in an unambiguous manner. In some embodiments, reads that are initially poorly aligned (e.g., as measured using an alignment score) but are paired with a read that aligns to the locus of interest or a space near it (in a pair of paired-end reads) are aligned to the sequence graph. In some embodiments, reads initially aligned to off-target regions that represent known hotspots for misaligned reads are aligned to the sequence graph.

[00139] На Фиг. 1D, 1E и 1F проиллюстрированы три разных графа последовательности в соответствии с некоторыми вариантами реализации. На Фиг. 1D проиллюстрирован первый граф последовательности 1100, представляющий первый геномный локус, содержащий последовательность повторов, имеющую тринуклеотидное повторяющееся звено CAG. Первый граф последовательности 1100 включает в себя вершины 1102 и 1112, соответственно представляющие две фланкирующие последовательности. Первый граф последовательности также включает вершину 1106, представляющую собой последовательность повторов, содержащий тринуклеотидное повторяющееся звено CAG. Первый граф последовательности включает в себя направленное ребро 1104, соединяющее вершину 1102 (фланкирующая последовательность) и вершину 1106 (последовательность повторов CAG) в направлении от вершины 1102 к вершине 1106. Направление ребра указывает на относительное положение двух нуклеотидных последовательностей. Первый граф последовательности также включает в себя направленное ребро 1104, соединяющее вершину 1102 (фланкирующая последовательность) и вершину 1106 (последовательность повторов CAG) в направлении от вершины 1102 к вершине 1106. Первый граф последовательности также включает в себя направленное ребро 1110, соединяющее вершину 1106 (последовательность повторов CAG) и вершину 1112 (фланкирующая последовательность) в направлении от вершины 1106 к вершине 1112. Первый граф последовательности также включает в себя собственный простой цикл 1108, который представляет собой последовательность повторов, содержащую повторяющееся звено CAG (проиллюстрированное вершиной 1106), которое повторяется один или более раз. Путь, проходящий от начальной вершины к конечной вершине графа последовательности, представляет собой последовательность геномного локуса, которая может содержать нуклеотиды, находящиеся вблизи последовательности повторов, такой как фланкирующие последовательности. [00139] Figs. 1D, 1E, and 1F illustrate three different sequence graphs according to some embodiments. Fig. 1D illustrates a first sequence graph 1100 representing a first genomic locus comprising a repeat sequence having a CAG trinucleotide repeat unit. The first sequence graph 1100 includes vertices 1102 and 1112, respectively representing two flanking sequences. The first sequence graph also includes a vertex 1106 representing a repeat sequence comprising a CAG trinucleotide repeat unit. The first sequence graph includes a directed edge 1104 connecting vertex 1102 (the flanking sequence) and vertex 1106 (the CAG repeat sequence) in a direction from vertex 1102 to vertex 1106. The direction of the edge indicates the relative position of the two nucleotide sequences. The first sequence graph also includes a directed edge 1104 connecting node 1102 (the flanking sequence) and node 1106 (the CAG repeat sequence) in the direction from node 1102 to node 1106. The first sequence graph also includes a directed edge 1110 connecting node 1106 (the CAG repeat sequence) and node 1112 (the flanking sequence) in the direction from node 1106 to node 1112. The first sequence graph also includes a proper simple cycle 1108, which is a repeat sequence containing a CAG repeat unit (illustrated by node 1106) that is repeated one or more times. The path from the starting node to the ending node of the sequence graph is the sequence of the genomic locus, which may contain nucleotides located near the repeat sequence, such as flanking sequences.

[00140] На Фиг. 1E проиллюстрирован второй граф последовательности 1200, представляющий второй геномный локус. Второй граф последовательности 1200 включает в себя вершины 1202 и 1224, соответственно представляющие две фланкирующие последовательности. Второй граф последовательности также включает в себя вершину 1206 и вершину 1216, представляющие последовательность повторов, содержащую. тринуклеотидное повторяющееся звено CAG, и последовательность повторов, содержащую тринуклеотидное повторяющееся звено CCG соответственно. Второй граф последовательности также включает в себя вершину 1212, представляющую последовательность CAACAG, не имеющую повторов. Второй граф последовательности включает в себя направленные ребра 1204, 1210, 1214 и 1220. Данные направленные ребра направленно соединяют вершины 1202, 1206, 1212, 1216 и 1224, как изображено на иллюстрации. Второй граф последовательности также включает в себя собственный простой цикл 1208, который представляет собой последовательность повторов, содержащую повторяющееся звено CAG (проиллюстрированное вершиной 1206), которое повторяется один или более раз. Второй граф последовательности также включает в себя собственный простой цикл 1218, который представляет собой последовательность повторов, содержащую повторяющееся звено CCG (проиллюстрированное вершиной 1216), которое повторяется один или более раз. [00140] Fig. 1E illustrates a second sequence graph 1200 representing a second genomic locus. The second sequence graph 1200 includes vertices 1202 and 1224, respectively representing two flanking sequences. The second sequence graph also includes vertex 1206 and vertex 1216, representing a repeat sequence comprising a CAG trinucleotide repeat unit and a repeat sequence comprising a CCG trinucleotide repeat unit, respectively. The second sequence graph also includes vertex 1212, representing a CAACAG sequence that does not have repeats. The second sequence graph includes directed edges 1204, 1210, 1214 and 1220. These directed edges directionally connect vertices 1202, 1206, 1212, 1216 and 1224, as shown in the illustration. The second sequence graph also includes a proper simple cycle 1208, which is a repeat sequence containing a repeating unit CAG (illustrated by vertex 1206), which is repeated one or more times. The second sequence graph also includes a proper simple cycle 1218, which is a repeat sequence containing a repeating unit CCG (illustrated by vertex 1216), which is repeated one or more times.

[00141] На Фиг. 1F проиллюстрирован третий граф последовательности 1300, представляющий третий геномный локус. Третий граф последовательности 1300 аналогичен второму графу последовательности 1200, но включает в себя два альтернативных пути, представляющие два аллеля CAC и CAT. Два аллеля могут представлять собой аллели ОНВ или ОНП. Направленное ребро 1310, вершина 1312 и направленное ребро 1314 представляют собой первый аллель CAC. Направленное ребро 1316, вершина 1318 и направленное ребро 1320 представляют собой второй аллель САТ. Третий граф последовательности включает в себя элементы, иным образом аналогичные элементам второго графа последовательности, включая вершины 1302, 1306, 1322 и 1328. Он также включает собственные простые циклы 1308 и 1324, указывающие на последовательности повторов CAG и CCG. Он дополнительно включает в себя направленные ребра 1304 и 1326. [00141] Fig. 1F illustrates a third sequence graph 1300 representing a third genomic locus. The third sequence graph 1300 is similar to the second sequence graph 1200, but includes two alternative paths representing two alleles of CAC and CAT. The two alleles may be either SNP or NBC alleles. Directed edge 1310, vertex 1312, and directed edge 1314 represent the first CAC allele. Directed edge 1316, vertex 1318, and directed edge 1320 represent the second CAT allele. The third sequence graph includes elements otherwise similar to the elements of the second sequence graph, including vertices 1302, 1306, 1322, and 1328. It also includes proper simple cycles 1308 and 1324, which point to the CAG and CCG repeat sequences. It additionally includes directed edges 1304 and 1326.

[00142] В некоторых вариантах реализации прочтения последовательностей выравнивают с графом последовательности с применением методик, описанных ниже. [00142] In some embodiments, sequence reads are aligned to a sequence graph using techniques described below.

[00143] 1. Индекс кмер строят на основании всего графа таким образом, что при наличии значения кмер из последовательности можно пересчитать все узлы графа, в которых начинается или заканчивается такой кмер. В некоторых случаях кмер может начинаться на одном узле и заканчиваться на другом узле. [00143] 1. The kmer index is constructed based on the entire graph in such a way that, given a kmer value from a sequence, all nodes of the graph at which such kmer begins or ends can be recalculated. In some cases, a kmer may begin at one node and end at another node.

[00144] 2. Относительно каждой точки графа регистрируют два подграфа: один в прямом направлении кмер, а другой в обратном направлении. На подграфах выполняют «разворачивание» экспансии повторов до оставшейся длины прочтения, при этом на них отсутствуют какие-либо узлы, расположенные дальше от места попадания кмер по сравнению с остальной длиной прочтения, и предполагается, что экспансия повторов не происходит. Процедура представляет собой метод поиска «в ширину» и используется для генерации структуры данных, содержащей следующие элементы: [00144] 2. Two subgraphs are registered relative to each graph point: one in the forward direction of the kmer and one in the reverse direction. The subgraphs are subject to "unfolding" of the repeat expansion to the remaining length of the read, while they do not have any nodes located further from the kmer hit point compared to the remaining length of the read, and it is assumed that no repeat expansion occurs. The procedure is a "breadth-first" search method and is used to generate a data structure containing the following elements:

[00145] - Последовательность всех последовательностей узлов (включая расширенные повторы) на подграфе [00145] - Sequence of all node sequences (including extended repeats) on a subgraph

[00146] - Индекс узлов, который позволяет легко получать идентификатор узла из смещения в последовательности при выполнении поиска с возвращением по алгоритму Смита-Уотермана. [00146] - A node index that allows a node identifier to be easily obtained from an offset in the sequence when performing Smith-Waterman backtracking.

[00147] - Последовательность смещений концов узлов с входящими ребрами для каждого начального смещения узла [00147] - Sequence of node end offsets with incoming edges for each node start offset

[00148] - Индекс для каждого узла, позволяющий легко определять, находится ли основание в начале узла или не в начале узла, а также подсчитывать все концевые смещения предшествующих узлов. [00148] - An index for each node, allowing easy determination of whether the base is at the start of the node or not, and also counting all end offsets of previous nodes.

[00149] 3. Выравнивание служит для: [00149] 3. Alignment serves to:

[00150] - Поддержания аффинных пробелов. [00150] - Maintaining affine gaps.

[00151] - Поиска наилучшего выравнивания (выравниваний) последовательности с учетом приведенной выше информации и матрицы штрафов. [00151] - Find the best sequence alignment(s) given the above information and the penalty matrix.

[00152] Доступны два разных интерфейса: [00152] Two different interfaces are available:

[00153] - Приведены данные о наилучшем выравнивании и втором наилучшим результате оценки выравнивания. [00153] - The best alignment and second best alignment score are reported.

[00154] - Весь массив наилучших выравниваний, а также второй наилучший результат оценки выравнивания. [00154] - The entire array of best alignments, as well as the second best alignment score.

[00155] Выравнивания представляют собой общие выравнивания, определяющие штраф за пробел между потенциальным кмер и началом выровненной последовательности. В некоторых вариантах реализации настраивают параметры времени компиляции. [00155] The alignments are general alignments that define a penalty for the gap between a potential kmer and the start of the aligned sequence. In some implementations, compile-time parameters are adjusted.

[00156] Использующийся алгоритм заполнения матрицы доступен в двух вариантах реализации: [00156] The matrix filling algorithm used is available in two implementation variants:

[00157] - Последовательные циклы со сложностью N*M. [00157] - Sequential cycles with complexity N*M.

[00158] - Последовательные циклы циклов фиксированного размера с параметром времени компиляции фиксированной длины, по умолчанию равным 16, которые gcc автоматически распознает и преобразует в векторные команды SSE или AVX на ЦП. [00158] - Fixed-size sequential loops with a fixed-length compile-time option defaulting to 16, which gcc automatically recognizes and translates to SSE or AVX vector instructions on the CPU.

[00159] В некоторых вариантах реализации повторяющееся звено одной или более последовательностей повторов содержит по меньшей мере один частично определенный нуклеотид. В некоторых вариантах реализации конкретное повторяющееся звено содержит вырожденные кодоны. [00159] In some embodiments, a repeating unit of one or more repeat sequences comprises at least one partially defined nucleotide. In some embodiments, a particular repeating unit comprises degenerate codons.

[00160] В некоторых вариантах реализации один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более последовательностей повторов. См., например, Фиг. 1E, Фиг. 1F и Фиг. 1G, панель (b). [00160] In some embodiments, the one or more native simple cycles comprise two or more native simple cycles representing two or more repeat sequences. See, for example, Fig. 1E, Fig. 1F, and Fig. 1G, panel (b).

[00161] В некоторых вариантах реализации граф последовательности дополнительно содержит два или более альтернативных путей для двух или более аллелей. См., например, Фиг. 1F, ссылочные номера 1312 и 1318. См. также Фиг. 1H, ссылочные номера 165 и 167а, указывающие локус Lynch I (MSH2), где верхний путь включает в себя вершину для основания нуклеиновой кислоты A, а нижний путь включает в себя вершину для основания нуклеиновой кислоты T. [00161] In some embodiments, the sequence graph further comprises two or more alternative pathways for two or more alleles. See, for example, Fig. 1F, reference numerals 1312 and 1318. See also Fig. 1H, reference numerals 165 and 167a, indicating the Lynch I (MSH2) locus, where the upper pathway includes a vertex for nucleic acid base A and the lower pathway includes a vertex for nucleic acid base T.

[00162] В некоторых вариантах реализации два или более аллеля содержат делецию или замену. В некоторых вариантах реализации замена включает в себя однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП). См., например, Фиг. 1F, ссылочные номера 1312 и 1318. [00162] In some embodiments, two or more alleles comprise a deletion or a substitution. In some embodiments, the substitution comprises a single nucleotide variant (SNV) or a single nucleotide polymorphism (SNP). See, for example, Fig. 1F, reference numbers 1312 and 1318.

[00163] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя: поиск соответствия кмер между прочтением последовательности и путем графа последовательности и последующее расширение данного пути до полного выравнивания. В некоторых вариантах реализации выравнивание включает в себя выделение подграфа по пути; «разворачивание» циклов на подграфе для получения направленного ациклического графа; и выполнение выравнивания Смита-Уотермана относительно прочтения последовательности по направленному ациклическому графу. [00163] In some embodiments, aligning a sequence read with a sequence graph includes: finding a kmer correspondence between the sequence read and a path of the sequence graph and then expanding the path to a complete alignment. In some embodiments, the alignment includes extracting a subgraph of the path; "unrolling" cycles in the subgraph to obtain a directed acyclic graph; and performing a Smith-Waterman alignment on the sequence read over the directed acyclic graph.

[00164] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя сокращение графа путем удаления концов выравниваний с низким уровнем достоверности. После выравнивания прочтения с графом в рамках способа выполняют поиск других аналогичных альтернативных выравниваний. Это осуществляется путем повторного выравнивания первоначального прочтения с путями графа, который перекрывает путь первоначального выравнивания. Это позволяет определить наличие низкого уровня достоверности одного или обоих концов изначального выравнивания; такой низкий уровень достоверности указывает на то, что они могли бы быть выровнены другим способом. Возможность обнаружения частей выравнивания с высоким и низким уровнем достоверности позволяет точно определить, какие генетические варианты поддержаны в рамках прочтения. [00164] In some embodiments, aligning a sequence read to a sequence graph includes pruning the graph by removing low-confidence ends of the alignments. After aligning the read to the graph, the method searches for other similar alternative alignments. This is accomplished by re-aligning the initial read to the paths of the graph that overlap the path of the initial alignment. This allows one or both ends of the initial alignment to be determined to have low confidence; such low confidence indicates that they could have been aligned in a different way. The ability to detect high and low confidence portions of the alignment allows one to accurately determine which genetic variants are supported within the read.

[00165] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя объединение выравниваний путем: выравнивания подпоследовательностей прочтения с графом последовательности; и объединения выравниваний подпоследовательностей для полного выравнивания прочтения последовательности. [00165] In some embodiments, aligning a sequence read to a sequence graph includes combining alignments by: aligning subsequences of the read to the sequence graph; and combining the subsequence alignments to fully align the sequence read.

[00166] В некоторых вариантах реализации в рамках процесса также генерируют граф последовательности на основании спецификации локуса, включающей в себя структуру геномного локуса. В некоторых вариантах реализации спецификация локуса определяется в каталоге вариантов, как объяснено выше. [00166] In some embodiments, the process also generates a sequence graph based on a locus specification that includes the structure of the genomic locus. In some embodiments, the locus specification is defined in a catalog of variants, as explained above.

[00167] См. также на панелях (b)-(d) Фиг. 1G для схематических иллюстраций выравнивания прочтений с графом последовательности локуса HTT. На Фиг. 1H схематично изображены анализаторы локусов 164 для выполнения выравнивания прочтений с графом последовательности, в том числе отн. локуса Lynch I (165). [00167] See also panels (b)-(d) of Fig. 1G for schematic illustrations of read alignment to the HTT locus sequence graph. Fig. 1H schematically depicts locus analyzers 164 for performing read alignment to the sequence graph, including relative to the Lynch I locus (165).

[00168] Способ 140 дополнительно включает в себя определение одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательностей, выровненных с графом последовательности. См. блок 140. См. также На панели (e) Фиг. 1G изображено определение двух КТП (CAG и CCG) в локусе HTT. Последовательность слева, включая повторы CAG, представляет собой CAGCAGCAGCAGCAG (Посл. №: 4). Последовательность слева, включая повторы CCG, представляет собой CCGCCGCCGCCGCCG (Посл. №: 5). [00168] Method 140 further includes determining one or more genotypes of one or more repeat sequences using sequence reads aligned to a sequence graph. See block 140. See also Panel (e) of Fig. 1G depicts the determination of two CTPs (CAG and CCG) at the HTT locus. The sequence on the left, including the CAG repeats, is CAGCAGCAGCAGCAG (SEQ ID NO: 4). The sequence on the left, including the CCG repeats, is CCGCCGCCGCCGCCG (SEQ ID NO: 5).

[00169] На Фиг. 1H изображен модуль ПО Variant Genotyper (168) для определения вариантов в локусе Lynch I, включая ОНВ с аллелями A/T (169а) и повторяющимся мономером A (169b). На Фиг. 1H также представлены модули ПО Variant Analyzer (166) для управления данными о выравнивании последовательностей и их передачи в ПО Variant Genotyper (168), а также пути реализации ПО Variant Analyzer для работы с ОНВ с аллелями A/T (167а) и повторяющимся мономером A (167b). Результаты отн. локуса, полученные с помощью ПО Genotyper, проиллюстрированы на Фиг. 1H, рамка 170, там же представлен генотип ОНВ с аллелями A/T (171а) и повторяющимся мономером A (171b). [00169] Fig. 1H depicts a Variant Genotyper software module (168) for calling variants at the Lynch I locus, including OHBs with A/T alleles (169a) and an A repeat monomer (169b). Fig. 1H also shows Variant Analyzer software modules (166) for managing sequence alignment data and feeding it to Variant Genotyper software (168), as well as implementation paths for Variant Analyzer software for working with OHBs with A/T alleles (167a) and an A repeat monomer (167b). The locus results obtained using Genotyper software are illustrated in Fig. 1H, box 170, which also shows the genotype of OHBs with A/T alleles (171a) and an A repeat monomer (171b).

[00170] В некоторых вариантах реализации граф последовательности включает в себя два альтернативных пути для двух аллелей, а способ дополнительно включает в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. В некоторых вариантах реализации генотипирование двух или более аллелей включает в себя охват двух или более альтернативных путей к вероятностной модели для определения вероятностей двух или более аллелей. В некоторых вариантах реализации вероятностная модель моделирует вероятность аллеля в зависимости от охвата аллеля, причем функция выбрана из распределения Пуассона, отрицательного биномиального распределения, биномиального распределения или бета-биномиального распределения. [00170] In some embodiments, the sequence graph includes two alternative pathways for two alleles, and the method further includes genotyping the two or more alleles using sequence reads aligned with the two or more alternative pathways. In some embodiments, genotyping the two or more alleles includes covering the two or more alternative pathways to a probability model for determining probabilities of the two or more alleles. In some embodiments, the probability model models the probability of an allele as a function of the allele coverage, wherein the function is selected from a Poisson distribution, a negative binomial distribution, a binomial distribution, or a beta-binomial distribution.

[00171] В некоторых вариантах реализации функция вероятности представляет собой распределение Пуассона, а ее параметр скорости оценивают по длине прочтения и средней глубине, наблюдаемой в геномном локусе. [00171] In some embodiments, the probability function is a Poisson distribution and its rate parameter is estimated from the read length and average depth observed at the genomic locus.

[00172] В модели Пуассона вероятность аллеля выражена следующим образом: [00172] In the Poisson model, the allele probability is expressed as follows:

[00173] P(Y=y) = (Cy × e-C)/y! [00173] P(Y=y) = (C y × e -C )/y!

[00174] • y представляет собой охват прочтений основания [00174] • y represents the coverage of base reads

[00175] • C представляет собой среднюю глубину, наблюдаемую в геномном локусе [00175] • C is the average depth observed at a genomic locus

[00176] В некоторых вариантах реализации среднюю глубину C определяют следующим образом. [00176] In some embodiments, the average depth C is determined as follows.

[00177] C=LN/G [00177] C=LN/G

[00178] • G представляет собой длину геномного локуса [00178] • G is the length of the genomic locus

[00179] • L представляет собой длину прочтения [00179] • L represents the read length

[00180] • N представляет собой общее количество прочтений [00180] • N represents the total number of reads

Библиотека GraphToolsGraphTools Library

[00181] В некоторых вариантах реализации при работе с графами последовательностей применяют библиотеку GraphTools. В библиотеке присутствуют ключевые схематические изображения графов (сами графы, пути графов и выравнивания графов), операции с ними и алгоритмы для выравнивания линейных последовательностей с графами. [00181] In some embodiments, the GraphTools library is used when working with sequence graphs. The library contains key schematic representations of graphs (the graphs themselves, graph paths, and graph alignments), operations with them, and algorithms for aligning linear sequences with graphs.

[00182] В некоторых вариантах реализации граф последовательности состоит из узлов и направленных ребер. Графы могут включать собственные простые циклы (ребра, соединяющие узел с самим собой), но не включать другие циклы. Узлы содержат последовательности, состоящие из базовых оснований и кодов вырожденных оснований, определенных ИЮПАК. [00182] In some embodiments, a sequence graph consists of nodes and directed edges. Graphs may include their own simple cycles (edges connecting a node to itself), but not include other cycles. Nodes contain sequences consisting of basic bases and degenerate base codes defined by IUPAC.

[00183] Путь в графе определяется последовательностью узлов, через которые проходит путь, а также начальной точкой пути на первом узле и конечной точкой на последнем узле. Положения указывают с использованием «полуоткрытой» системы координат с отсчетом от нуля. В библиотеке представлены обозначения множества операций на путях, включая расширение и сокращение путей, проверки перекрытия и объединение путей. [00183] A path in a graph is defined by a sequence of nodes through which the path passes, as well as the starting point of the path at the first node and the ending point at the last node. Positions are specified using a zero-based "half-open" coordinate system. The library provides notations for a variety of path operations, including path expansion and contraction, overlap tests, and path merging.

[00184] Выравнивания графов содержат кодовые обозначения того, как линейные запрашиваемые последовательности (обычно это последовательности прочтений) выравнивают с графами. В некоторых вариантах реализации выравнивание графа содержит путь графа и последовательность линейных выравниваний, определяющих выравнивание запрашиваемой последовательности с узлами пути графа. С применением соответствующих операций с путями, выравнивания графов могут быть сокращены или объединены с другими выравниваниями графов. Сокращение пути обеспечивает механизм устранения концов выравниваний с низким уровнем достоверности, в то время как объединение выравниваний используется алгоритмами выравнивания графа для объединения полного выравнивания запрашиваемой последовательности с выравниваниями подпоследовательностей (например, кмер). В некоторых вариантах реализации алгоритм выравнивания работает путем поиска соответствия кмер между запрашиваемой последовательностью и графом и последующего расширения этого соответствия до полного выравнивания. В некоторых вариантах реализации выравнивание включает в себя выделение подграфа по пути, совпадающему с соответствием кмер (с «разворачиванием» циклов в процессе). Затем выполняют выравнивание Смита-Уотермана относительно полученного направленного ациклического графа. В некоторых вариантах реализации алгоритм поддерживает определение штрафов за аффинные пробелы и записываеют с применением циклов постоянной длины для генерации кода SIMD компиляторами. [00184] Graph alignments comprise encodings of how linear query sequences (typically read sequences) are aligned to graphs. In some embodiments, a graph alignment comprises a graph path and a sequence of linear alignments that define an alignment of the query sequence to nodes of the graph path. Using appropriate path operations, graph alignments can be pruned or combined with other graph alignments. Path pruning provides a mechanism for eliminating low-confidence alignment ends, while alignment merging is used by graph alignment algorithms to combine a full alignment of a query sequence with subsequence alignments (e.g., kmer). In some embodiments, an alignment algorithm operates by finding a kmer correspondence between a query sequence and a graph and then expanding that correspondence to a full alignment. In some embodiments, the alignment includes extracting a subgraph along the path that matches the kmer correspondence (unrolling cycles in the process). Then, a Smith-Waterman alignment is performed with respect to the resulting directed acyclic graph. In some implementations, the algorithm supports the definition of penalties for affine gaps and is written using constant-length cycles for SIMD compilers to generate code.

[00185] В некоторых вариантах реализации путь в графе может быть получен с помощью алгоритма поиска, который включает расширение или сокращение пути путем увеличения или уменьшения количества повторов повторяющегося звена, представленного собственным простым циклом, до тех пор, пока выравнивание не достигнет критерия поиска или конвергенции (например, в случае, когда оценка выравнивания достигает максимального значения). [00185] In some embodiments, a path in a graph may be obtained using a search algorithm that includes expanding or contracting the path by increasing or decreasing the number of repetitions of a repeating link represented by its own simple cycle until the alignment reaches a search criterion or convergence (e.g., when the alignment score reaches a maximum value).

[00186] В некоторых вариантах реализации на основе графа последовательности генерируют множество путей в графе, причем каждый путь в графе представляет собой конкретное число повторов повторяющегося звена, представленного собственным простым циклом. Запрашиваемую последовательность выравнивают с множеством путей в графе, а затем путь, соответствующий критерию выравнивания, выбирают для выполнения графического выравнивания. [00186] In some embodiments, based on a sequence graph, a plurality of paths in the graph are generated, wherein each path in the graph represents a specific number of repetitions of a repeating unit represented by its own simple cycle. The requested sequence is aligned with the plurality of paths in the graph, and then the path that meets the alignment criterion is selected to perform the graph alignment.

Структура способа примененияStructure of the method of application

[00187] Некоторые варианты реализации разработаны в качестве общего способа выполнения целевого генотипирования вариантов (Фиг. 1H). В ходе каждого цикла программа предпринимает попытки генотипирования набора вариантов, [00187] Some embodiments are designed as a general method for performing targeted genotyping of variants (Figure 1H). During each cycle, the program attempts to genotype a set of variants,

[00188] описанных в файле каталога вариантов. Варианты, расположенные в непосредственной близости друг от друга, сгруппированы в один и тот же локус. Структуру локуса указывают с применением ограниченного подмножества регулярного синтаксиса выражения (RE). RE содержат последовательности, расположенные в алфавитном порядке, состоящие из символов базовых оснований и кодов вырожденных оснований, определенных ИЮПАК; они должны содержать одно или более из следующих выражений (<последовательность>)?, (<последовательность a>|<последовательность b>), (<последовательность>)*, (<последовательность>)+, возможно, разделенных разрывами последовательностей. Данные выражения соответствуют вставкам/делециям, заменам, повторению последовательности 0 или более раз, а также повторению последовательности по меньшей мере один раз, соответственно. Кроме того, описание каждого локуса содержит набор основных областей для данного локуса, а также основные координаты каждого составляющего варианта. [00188] variants described in the catalog file. Variants located in close proximity to each other are grouped into the same locus. The locus structure is specified using a limited subset of regular expression (RE) syntax. REs contain alphabetically ordered sequences of basic base symbols and degenerate base codes as defined by IUPAC; they must contain one or more of the following expressions (<sequence>)?, (<sequence a>|<sequence b>), (<sequence>)*, (<sequence>)+, possibly separated by sequence breaks. These expressions correspond to insertions/deletions, substitutions, zero or more repetitions of a sequence, and at least one repetition of a sequence, respectively. In addition, each locus description contains a set of core regions for that locus, as well as the core coordinates of each constituent variant.

[00189] Основная часть работы упорядочена по объектам класса LocusAnalyzer, который синтезирует граф последовательности, представляющий локус соответствующего RE в процессе инициализации. После инициализации анализатор локусов обрабатывает соответствующие прочтения путем их выравнивания с графом и дальнейшей передачи полученных выравниваний в ПО VariantAnalyzer, предназначенное для работы со всеми вариантами, содержащимся в локусе. ПО Variant Analyzer собирает информацию, важную с точки зрения процесса генотипирования связанного варианта, и передает ее ПО Genotyper, отвечающему за выполнение процесса генотипирования. Результаты, полученные каждой единицей ПО Genotyper, затем используются для создания выходного файла в формате VCF. [00189] The bulk of the work is organized around objects of the LocusAnalyzer class, which synthesizes a sequence graph representing the locus of the corresponding RE during the initialization process. After initialization, the locus analyzer processes the corresponding reads by aligning them to the graph and then passing the resulting alignments to VariantAnalyzer software, which is designed to work with all variants contained in the locus. Variant Analyzer software collects information relevant to the genotyping process of the associated variant and passes it to Genotyper software, which is responsible for performing the genotyping process. The results obtained by each unit of Genotyper software are then used to generate an output file in VCF format.

[00190] Например, в анализаторе LocusAnalyzer, отвечающем за обработку локуса патогенным вариантом, связанным с синдромом Lynch I, используют анализатор ОНВ и анализатор КТП (Фиг. S1, правая панель). [00190] For example, the LocusAnalyzer, which is responsible for processing the locus for the pathogenic variant associated with Lynch syndrome I, uses an ONV analyzer and a CTP analyzer (Figure S1, right panel).

5.8. Применение ПО Genotyper для работы с делециями5.8. Using Genotyper software to work with deletions

[00191] Некоторые КТП могут иметь рядом небольшую вставку или делецию. Такие делеции моделируются в виде дополнительных подграфов фланкирующих последовательностей КТП. Количество прочтений, сопоставляемых с каждым аллелем (или путем в графе), моделируют с помощью распределения Пуассона, параметр скорости которого оценивают по средней глубине и длине прочтения, наблюдаемой в локусе. Вероятность генотипа рассчитывают по байесовской схеме. [00191] Some CTPs may have a small insertion or deletion nearby. Such deletions are modeled as additional subgraphs of the flanking sequences of the CTP. The number of reads mapped to each allele (or pathway in the graph) is modeled using a Poisson distribution whose rate parameter is estimated from the average depth and length of reads observed at the locus. The genotype probability is calculated using a Bayesian framework.

5.9. Идентификация экспансий повторов5.9 Identification of repeat expansions

[00192] Используя описанные в настоящем документе варианты реализации, можно определить различные наследственные заболевания, относящиеся к экспансии повторов с высокой эффективностью, чувствительностью и/или селективностью по сравнению с традиционными способами. В некоторых вариантах реализации настоящего изобретения предложены способы определения и распознавания значимых с медицинской точки зрения экспансий повторов, таких как экспансия повторов CGG, вызывающая задержку умственного развития при синдроме ломкой X-хромосомы, с помощью прочтений последовательностей, которые не полностью охватывают последовательность повторов. Короткие прочтения, такие как прочтения 100 п. н. о., являются недостаточно длинными для выполнения секвенирования множества экспансий повторов. Однако при выполнения анализа описанными способами образцы с экспансией повторов демонстрируют статистически значимый избыток прочтений, содержащих большое число последовательности повторов. Кроме того, крайне большие экспансии повторов содержат невыровненные пары прочтений, где оба прочтения полностью или почти полностью состоят из последовательности повторов. Нормальные образцы используют для определения фоновых ожиданий. [00192] Using the embodiments described herein, various inherited diseases related to repeat expansions can be identified with high efficiency, sensitivity, and/or selectivity compared to traditional methods. In some embodiments, the present invention provides methods for identifying and recognizing medically significant repeat expansions, such as the CGG repeat expansion that causes mental retardation in fragile X syndrome, using sequence reads that do not completely span the repeat sequence. Short reads, such as 100 bp reads, are not long enough to perform sequencing of multiple repeat expansions. However, when analyzed using the methods described, repeat expansion samples exhibit a statistically significant excess of reads containing a large amount of repeat sequence. In addition, extremely large repeat expansions contain misaligned read pairs, where both reads consist entirely or almost entirely of repeat sequence. Normal samples are used to determine background expectations.

[00193] Общепринятое убеждение заключается в том, что экспансию повторов невозможно обнаружить без применения прочтения, охватывающего весь повтор. В существующих подходах к обнаружению экспансий повторов используют целевое секвенирование с длинными прочтениями, и в некоторых случаях такие прочтения не являются успешными из-за недостаточной длины, вследствие чего с их помощью невозможно охватить последовательность повторов. Результаты некоторых описанных вариантов реализации были неожиданными, частично потому, что в них использованы нормальные (нецелевые) данные последовательности и длина прочтения около в 100 п. н. о., однако они обеспечивают очень высокую чувствительность при обнаружении экспансий повторов. Способы, изложенные в настоящем документе, позволяют обнаруживать число повторяющихся звеньев при экспансии повторов с помощью парных прочтений, имеющих длину вставки (т. е. два прочтения последовательностей и промежуточную последовательность), которая является более короткой, чем длина всей последовательности повторов. [00193] The conventional wisdom is that repeat expansions cannot be detected without using a read that spans the entire repeat. Existing approaches to detecting repeat expansions use targeted sequencing with long reads, and in some cases such reads fail due to insufficient length, making them unable to span the repeat sequence. The results of some of the described embodiments were unexpected, in part because they used normal (non-target) sequence data and a read length of approximately 100 bp, but they provide very high sensitivity in detecting repeat expansions. The methods described herein detect the number of repeat units in a repeat expansion using paired reads having an insert length (i.e., two sequence reads and an intervening sequence) that is shorter than the length of the entire repeat sequence.

[00194] Что касается деталей способов определения наличия экспансии повторов в соответствии с некоторыми вариантами реализации, на Фиг. 2 представлена блок-схема с изображением высокого уровня вариантов реализации для определения наличия или отсутствия экспансии повторов в последовательности повторов в образце. Последовательность повторов представляет собой нуклеотидную последовательность, содержащую повторяющиеся короткие последовательности, называемые повторяющимися звеньями. В приведенной выше Таблице 1 изложены примеры повторяющихся звеньев, количество повторов повторяющихся звеньев в повторяющихся последовательностях отн. нормальных и патогенных последовательностей, гены, связанные с последовательностями повторов, и заболевания, связанные с экспансией повторов. Процесс 200, проиллюстрированный на Фиг. 2, начинают с получения парных концевых прочтений исследуемого образца. См. блок 202. Парные концевые прочтения обрабатывают для выравнивания с эталонной последовательностью, содержащей исследуемую последовательность повторов. В некоторых контекстах процесс выравнивания также называют процессом сопоставления. Исследуемый образец содержит нуклеиновую кислоту и может иметь форму биологической жидкости, ткани и т. д., как дополнительно описано в разделе «Образец» ниже. Прочтения последовательностей подвергали процессу выравнивания для сопоставления с эталонной последовательностью. Для выполнения выравнивания прочтений с эталонной последовательностью могут использовать различные инструменты и алгоритмы выравнивания, как описано в других разделах настоящего описания. Обычно при выполнении алгоритмов выравнивания некоторые прочтения успешно выравнивают с эталонной последовательностью, тогда как другие прочтения могут выравнивать не настолько успешно, либо могут плохо выравниваться с эталонной последовательностью. Прочтения, которые последовательно выровнены с эталонной последовательностью, связаны с сайтами на эталонной последовательности. Выровненные прочтения и связанные с ними сайты также называются метками последовательностей. Как объяснено выше, выравнивание некоторых прочтений последовательностей, содержащих большое число повторов, с эталонной последовательностью, является более сложным. Если прочтение выровнено с эталонной последовательностью, и при этом уровень ошибочно спаренных оснований находится выше определенного критерия, такое прочтение считается плохо выровненным. В разнообразных вариантах реализации прочтения считают плохо выровненными, если они выровнены с по меньшей мере около 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 несовпадениями. В других вариантах реализации прочтения считают плохо выровненными, если они выровнены с по меньшей мере около 5% несовпадений. В других вариантах реализации прочтение считают плохо выровненным, если оно выровнено с по меньшей мере около 10%, 15% или 20% ошибочно спаренных оснований. [00194] With respect to the details of methods for determining the presence of a repeat expansion in accordance with some embodiments, Fig. 2 is a flow chart depicting a high level of embodiments for determining the presence or absence of a repeat expansion in a repeat sequence in a sample. A repeat sequence is a nucleotide sequence that contains repeated short sequences called repeat units. Table 1 above sets forth examples of repeat units, the number of repeats of repeat units in the repeat sequences relative to normal and pathogenic sequences, genes associated with the repeat sequences, and diseases associated with the repeat expansion. The process 200 illustrated in Fig. 2 begins with obtaining paired-end reads of the sample under study. See block 202. The paired-end reads are processed to align with a reference sequence containing the repeat sequence of study. In some contexts, the alignment process is also referred to as the mapping process. The sample under study contains nucleic acid and may be in the form of a biological fluid, tissue, etc., as further described in the Sample section below. The sequence reads are subjected to an alignment process to match them to a reference sequence. Various tools and alignment algorithms may be used to align the reads to the reference sequence, as described elsewhere herein. Typically, when executing the alignment algorithms, some reads will align successfully to the reference sequence, while other reads may not align as successfully or may align poorly to the reference sequence. Reads that are consistently aligned to the reference sequence are associated with sites on the reference sequence. The aligned reads and their associated sites are also referred to as sequence tags. As explained above, aligning some sequence reads containing a large number of repeats to the reference sequence is more challenging. If a read is aligned with a reference sequence and the mismatch rate is above a certain criterion, the read is considered poorly aligned. In various embodiments, reads are considered poorly aligned if they are aligned with at least about 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 mismatches. In other embodiments, reads are considered poorly aligned if they are aligned with at least about 5% mismatches. In other embodiments, a read is considered poorly aligned if it is aligned with at least about 10%, 15%, or 20% mismatches.

[00195] Как изображен на Фиг. 2, в процессе 200 описана определениекация базовых и закрепленных прочтений в парных концевых прочтениях. См. блок 204. Базовые прочтения считывают между парными концевыми прочтениями, которые выровнены с исследуемой последовательностью повторов или пространством рядом с ней. Например, базовое прочтение может быть выровнено с местоположением на эталонной последовательности, которая отделена от последовательности повторов длиной последовательности, которая меньше длины последовательности вставки. Длина разделения может быть меньше. Например, базовое прочтение может быть выровнено с местоположением на эталонной последовательности, которая отделена от последовательности повторов длиной последовательности, которая меньше длины последовательности базового прочтения или меньше общей длины последовательности базового прочтения и последовательности, которая соединяет базовое прочтение с закрепленным прочтением (длина вставки минус длина закрепленного прочтения). В некоторых вариантах реализации исследуемой последовательностью повторов может являться последовательность повторов в гене FMR1, включая повторы повторяющегося звена CGG. В нормальной эталонной последовательности последовательность повторов в гене FMR1 включает в себя около от 6 до 32 повторов повторяющегося звена CGG. Поскольку повторы расширяются до свыше 200 копий, существует вероятность патогенизации экспансии повторов, что вызывает синдром ломкой X-хромосомы. В некоторых вариантах реализации прочтение считают выровненным вблизи исследуемой последовательности в случаях, когда оно выровнено в пределах 1 000 п. н. о. от исследуемой последовательности повторов. В других вариантах реализации данный параметр может быть скорректирован, например, в пределах около 100 п. н. о., 200 п. н. о., 300 п. н. о., 400 п. н. о., 500 п. н. о., 600 п. н. о., 700 п. н. о., 800 п. н. о., 900 п. н. о., 1 500 п. н. о., 2 000 п. н. о., 3 000 п. н. о., 5 000 п. н. о. и т. д. Кроме того, в рамках процесса также определяют закрепленные прочтения, которые представляют собой прочтения, спаренные с базовыми прочтениями, но при этом они являются плохо выровненными или не могут быть выровнены с их эталонной последовательностью. Дополнительная информация о плохо выровненных прочтениях приведена выше. [00195] As shown in Fig. 2, the process 200 describes determining base and anchored reads in paired end reads. See block 204. Base reads are reads between paired end reads that are aligned with the repeat sequence of interest or the space next to it. For example, a base read can be aligned with a location on a reference sequence that is separated from the repeat sequence by a sequence length that is less than the length of the insert sequence. The separation length can be shorter. For example, a base read can be aligned with a location on a reference sequence that is separated from the repeat sequence by a sequence length that is less than the sequence length of the base read or less than the total sequence length of the base read and the sequence that connects the base read to the anchored read (insert length minus anchored read length). In some embodiments, the repeat sequence of interest may be a repeat sequence in the FMR1 gene, including repeats of the CGG repeat unit. In a normal reference sequence, the repeat sequence in the FMR1 gene includes about 6 to 32 repeats of the CGG repeat unit. Since the repeats expand to over 200 copies, there is a potential for pathogenicity of the repeat expansion, which causes fragile X syndrome. In some embodiments, a read is considered to be aligned near the sequence of interest when it is aligned within 1,000 bp of the repeat sequence of interest. In other embodiments, this parameter can be adjusted, for example, within about 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, etc. bp, 600 bp, 700 bp, 800 bp, 900 bp, 1,500 bp, 2,000 bp, 3,000 bp, 5,000 bp, etc. In addition, the process also identifies anchored reads, which are reads that are paired with base reads but are poorly aligned or cannot be aligned to their reference sequence. More information on poorly aligned reads is provided above.

[00196] Процесс 200 дополнительно включает в себя определение вероятности присутствия экспансии повторов последовательности повторов в исследуемом образце, на основании определенных закрепленных прочтений, по меньшей мере, частично. См. блок 206. Данный этап процесса определения может включать в себя разнообразные подходящие методы анализа и вычисления, как дополнительно описано ниже. В некоторых вариантах реализации в рамках процесса для определения вероятности наличия экспансии повторов применяют определенные базовые прочтения, а также закрепленные прочтения. В некоторых вариантах реализации количество повторов в определенных базовых и закрепленных прочтениях анализируют и сравнивают с одним или более критериями, полученными теоретическим путем, либо полученными из эмпирических данных затронутых контрольных образцов. [00196] The process 200 further includes determining the probability of the presence of a repeat expansion of the repeat sequence in the sample under study, based at least in part on the determined anchored reads. See block 206. This step of the determining process may include a variety of suitable analysis and calculation methods, as further described below. In some embodiments, the process uses the determined base reads as well as the anchored reads to determine the probability of the presence of a repeat expansion. In some embodiments, the number of repeats in the determined base and anchored reads is analyzed and compared to one or more criteria derived theoretically or derived from empirical data on the affected control samples.

[00197] В разнообразных вариантах реализации, описанных в настоящем документе, повторы получают в качестве повторов внутри рамки, причем два повтора одного и того же повторяющегося звена попадают в одну и ту же рамку считывания. Рамка считывания представляет собой способ деления последовательности нуклеотидов в молекуле нуклеиновой кислоты (ДНК или РНК) на набор последовательных неперекрывающихся триплетов. Во время преобразования триплеты кодируют аминокислоты, и такие триплеты называются кодонами. Таким образом, любая последовательность имеет три возможных рамки считывания. В некоторых вариантах реализации повторы подсчитывают в соответствии с тремя различными рамками считывания, а один подсчет из трех, показавший наибольшее значение, считается количеством соответствующих повторов в прочтении. [00197] In various embodiments described herein, repeats are obtained as in-frame repeats, wherein two repeats of the same repeat unit fall within the same reading frame. A reading frame is a way of dividing a sequence of nucleotides in a nucleic acid molecule (DNA or RNA) into a set of consecutive, non-overlapping triplets. During translation, the triplets encode amino acids, and such triplets are called codons. Thus, any sequence has three possible reading frames. In some embodiments, repeats are counted according to three different reading frames, and the one count of the three that shows the highest value is considered the number of corresponding repeats in the read.

[00198] Пример процесса, включающего в себя выполнение дополнительной операции и анализов, проиллюстрирован на Фиг. 3. На Фиг. 3 представлена блок-схема, иллюстрирующая процесс 300, необходимый для обнаружения экспансии повторов с использованием парных концевых прочтений, имеющих большое количество повторов. Способ 300 включает в себя дополнительные действия для обработки исследуемого образца. Процесс начинают с секвенирования исследуемого образца, содержащего нуклеиновые кислоты, для получения парных концевых прочтений. См. блок 302. В некоторых вариантах реализации исследуемый образец может быть получен и подготовлен разнообразным способами, как дополнительно описано ниже в разделе «Образцы». Например, исследуемый образец может представлять собой биологическую текучую среду, например, плазму или любой подходящий образец, как описано ниже. Образец может быть получен с применением неинвазивной процедуры, такой как обычный забор крови. В некоторых вариантах реализации исследуемый образец содержит смесь молекул нуклеиновых кислот, например, молекул скДНК. В некоторых вариантах реализации исследуемый образец представляет собой образец материнской плазмы, содержащий смесь молекул эмбриональной и материнской ДНК. [00198] An example of a process that includes performing an additional step and assays is illustrated in Fig. 3. Fig. 3 is a flow chart illustrating a process 300 required to detect a repeat expansion using paired end reads having a large number of repeats. The method 300 includes additional steps for processing a test sample. The process begins with sequencing a test sample containing nucleic acids to obtain paired end reads. See block 302. In some embodiments, the test sample may be obtained and prepared in a variety of ways, as further described below in the "Samples" section. For example, the test sample may be a biological fluid, such as plasma, or any suitable sample, as described below. The sample may be obtained using a non-invasive procedure, such as a routine blood draw. In some embodiments, the test sample comprises a mixture of nucleic acid molecules, such as csDNA molecules. In some embodiments, the test sample is a maternal plasma sample containing a mixture of fetal and maternal DNA molecules.

[00199] Перед секвенированием нуклеиновые кислоты экстрагируют из образца. Подходящие процессы экстракции и устройство описаны в других разделах настоящего документа. В некоторых вариантах реализации устройством выполняют совместную обработку ДНК из множества образцов для мультиплексирования библиотек и данных последовательности. В некоторых вариантах реализации устройством 20 выполняют обработку ДНК восьми или более исследуемых образцов параллельно. Как описано ниже, системой секвенирования могут обрабатывать извлекаемую ДНК для получения библиотеки кодированных (например, путем штрих-кодирования) фрагментов ДНК. [00199] Prior to sequencing, nucleic acids are extracted from the sample. Suitable extraction processes and apparatus are described elsewhere herein. In some embodiments, the apparatus co-processes DNA from multiple samples to multiplex libraries and sequence data. In some embodiments, the apparatus 20 processes DNA from eight or more test samples in parallel. As described below, the sequencing system may process the extracted DNA to produce a library of encoded (e.g., barcoded) DNA fragments.

[00200] В некоторых вариантах реализации нуклеиновые кислоты в исследуемом образце можно дополнительно обрабатывать для подготовки библиотек для одноканального или многоканального секвенирования, как дополнительно описано ниже в разделе «Подготовка библиотек для секвенирования». После обработки и подготовки образцов секвенирование нуклеиновой кислоты могут выполнять разнообразными способами. В некоторых вариантах реализации можно применять разнообразные платформы и протоколы секвенирования следующего поколения, которые дополнительно описаны в разделе «Способы секвенирования» ниже. [00200] In some embodiments, nucleic acids in a test sample may be further processed to prepare libraries for single-channel or multi-channel sequencing, as further described below in the "Preparing Libraries for Sequencing" section. After processing and preparing the samples, nucleic acid sequencing may be performed in a variety of ways. In some embodiments, a variety of next-generation sequencing platforms and protocols may be used, as further described in the "Sequencing Methods" section below.

[00201] Независимо от конкретной платформы и протокола секвенирования в блоке 302 по меньшей мере часть содержащихся в образце нуклеиновых кислот секвенируют для генерирования десятков тысяч, сотен тысяч или миллионов прочтений последовательностей, например, прочтений 100 п. н. о. В некоторых вариантах реализации прочтения включают в себя парные концевые прочтения. В других вариантах реализации, в том числе описанных ниже со ссылкой на Фиг. 5, в дополнение к парным концевым прочтениям для определения последовательности повторов можно применять одиночные концевые длинные прочтения, охватывающие более сотен тысяч или десятков тысяч оснований. В некоторых вариантах реализации прочтения последовательностей содержат около 20 п. н. о., около 25 п. н. о., около 30 п. н. о., около 35 п. н. о., около 36 п. н. о., около 40 п. н. о., около 45 п. н. о., около 50 п. н. о., около 55 п. н. о., около 60 п. н. о., около 65 п. н. о., около 70 п. н. о., около 75 п. н. о., около 80 п. н. о., около 85 п. н. о., около 90 п. н. о., около 95 п. н. о., около 100 п. н. о., около 110 п. н. о., около 120 п. н. о., около 130, около 140 п. н. о., около 150 п. н. о., около 200 п. н. о., около 250 п. н. о., около 300 п. н. о., около 350 п. н. о., около 400 п. н. о., около 450 п. н. о. или около 500 п. н. о. Ожидается, что при генерировании парных концевых прочтений технологические достижения обеспечат возможность одиночных концевых прочтений более 500 п. н. о. и прочтений более 1 000 п. н. о. [00201] Regardless of the particular sequencing platform and protocol, in block 302, at least a portion of the nucleic acids contained in the sample are sequenced to generate tens of thousands, hundreds of thousands, or millions of sequence reads, such as 100 bp reads. In some embodiments, the reads include paired end reads. In other embodiments, including those described below with respect to FIG. 5, in addition to paired end reads, single end long reads spanning more than hundreds of thousands or tens of thousands of bases can be used to determine the sequence of repeats. In some embodiments, the sequence reads comprise about 20 bp, about 25 bp, about 30 bp, about 35 bp, about 36 bp, about 40 bp, about 45 bp, or about 50 bp. o., about 50 bp, about 55 bp, about 60 bp, about 65 bp, about 70 bp, about 75 bp, about 80 bp, about 85 bp, about 90 bp, about 95 bp, about 100 bp, about 110 bp, about 120 bp, about 130 bp, about 140 bp, about 150 bp, about 200 bp, about 250 bp, about 300 bp, about 350 bp o., about 400 bp, about 450 bp, or about 500 bp. When generating paired-end reads, technological advances are expected to enable single-end reads greater than 500 bp and reads greater than 1,000 bp.

[00202] В процессе 300 описано выравнивание результатов парных концевых прочтений, полученных из блока 302, с эталонной последовательностью, включающей в себя последовательность повторов. См. блок 304. В некоторых вариантах реализации последовательность повторов имеет склонность к экспансии. Известно, что в некоторых вариантах реализации экспансия повторов связана с генетическим заболеванием. В других вариантах реализации экспансия повторов последовательности повторов ранее не была изучена для установления связи с генетическим заболеванием. Способы, описанные в настоящем документе, позволяют обнаруживать последовательность повторов и экспансию повторов независимо от любой связанной с ней патологии. В некоторых вариантах реализации прочтения выравнивают с эталонным геномом; пример: hg18. В других вариантах реализации прочтения выравнивают с участком эталонного генома, например, с хромосомой или сегментом хромосомы. Прочтения, однозначно сопоставленные с эталонным геномом, называются метками последовательностей. В одном варианте реализации по меньшей мере около 3 × 106 квалифицированных меток последовательности, по меньшей мере около 5 × 106 квалифицированных меток последовательности, по меньшей мере около 8 × 106 квалифицированных меток последовательности, по меньшей мере около 10 × 106 квалифицированных меток последовательности, по меньшей мере около 15 × 106 квалифицированных меток последовательности, по меньшей мере около 20 × 106 квалифицированных меток последовательностей, по меньшей мере около 30 × 106 квалифицированных меток последовательностей, по меньшей мере около 40 × 106 квалифицированных меток последовательностей или по меньшей мере около 50 × 106 квалифицированных меток последовательностей получают на основе прочтений, однозначно сопоставляемых с эталонным геномом. [00202] Process 300 describes aligning the results of the paired end reads obtained from block 302 with a reference sequence that includes a repeat sequence. See block 304. In some embodiments, the repeat sequence has a tendency to expand. In some embodiments, the repeat expansion is known to be associated with a genetic disease. In other embodiments, the repeat expansion of the repeat sequence has not previously been studied to establish an association with a genetic disease. The methods described herein can detect a repeat sequence and a repeat expansion independent of any associated pathology. In some embodiments, the reads are aligned with a reference genome; example: hg18. In other embodiments, the reads are aligned with a region of the reference genome, such as a chromosome or a segment of a chromosome. Reads that are uniquely aligned with a reference genome are referred to as sequence tags. In one embodiment, at least about 3 x 10 6 qualified sequence tags, at least about 5 x 10 6 qualified sequence tags, at least about 8 x 10 6 qualified sequence tags, at least about 10 x 10 6 qualified sequence tags, at least about 15 x 10 6 qualified sequence tags, at least about 20 x 10 6 qualified sequence tags, at least about 30 x 10 6 qualified sequence tags, at least about 40 x 10 6 qualified sequence tags, or at least about 50 x 10 6 qualified sequence tags are obtained from reads that map unambiguously to a reference genome.

[00203] В некоторых вариантах реализации в рамках процесса могутт выполнять фильтрацию прочтений последовательности перед выравниванием. В некоторых вариантах реализации фильтрация прочтений представляет собой процесс качественной фильтрации, выполняемый с применением программного обеспечения секвенатора и направленный на отсечение ошибочных и низкокачественных прочтений. Например, программное обеспечение Illumina под названием Sequencing Control Software (SCS), а также Consensus Assessment of Sequence and Variation, применяют для отсечения ошибочных и низкокачественных прочтений путем преобразования исходных изображений-данных, генерированных в результате реакций секвенирования, в значения интенсивности, процессы распознавания оснований, оценки качества и дополнительные форматы для сбора биологически релевантной информации для этапа дальнейшего анализа. [00203] In some embodiments, the process may filter the sequence reads prior to alignment. In some embodiments, the read filtering is a quality filtering process performed using sequencer software to filter out erroneous and low-quality reads. For example, Illumina's Sequencing Control Software (SCS) and Consensus Assessment of Sequence and Variation are used to filter out erroneous and low-quality reads by converting raw image data generated by sequencing reactions into intensity values, base calls, quality scores, and additional formats for collecting biologically relevant information for a further analysis step.

[00204] В определенных вариантах реализации прочтения, полученные с помощью аппарата для секвенирования, представлены в электронном формате. Процесс выравнивания осуществляют с помощью вычислительного устройства, как описано ниже. Отдельные прочтения сравнивают с эталонным геномом, который часто является обширным (миллионы пар нуклеотидных оснований), чтобы определить точки, где прочтения однозначно соответствуют эталонному геному. В некоторых вариантах реализации в рамках выравниваний допускают ограниченное несоответствие между прочтениями и эталонным геномом. В некоторых случаях допускается несовпадение 1, 2, 3 или более соответствующих пар нуклеотидных оснований в эталонном геноме, и при этом по-прежнему выполняют сопоставление. В некоторых вариантах реализации прочтения считают выровненными прочтениями в случаях, когда прочтения выровнены с эталонной последовательностью, содержащей не более чем 1, 2, 3 или 4 пары нуклеотидных оснований. Соответственно, невыровненные прочтения представляют собой прочтения, которые не могут быть выровнены или являются плохо выровненными. Плохо выровненные прочтения представляют собой прочтения с большим количеством несовпадений, чем у выровненных прочтений. В некоторых вариантах реализации прочтения считают выровненными прочтениями в случаях, когда прочтения выровнены с эталонной последовательностью, содержащей не более 1%, 2%, 3%, 4%, 5% или 10% пар нуклеотидных оснований. [00204] In certain embodiments, reads obtained by a sequencing machine are in an electronic format. The alignment process is performed by a computing device as described below. Individual reads are compared to a reference genome, which is often large (millions of base pairs), to determine points where the reads unambiguously match the reference genome. In some embodiments, alignments allow limited mismatches between reads and the reference genome. In some cases, mismatches of 1, 2, 3, or more corresponding base pairs in the reference genome are allowed and still perform alignment. In some embodiments, reads are considered aligned reads when the reads are aligned to a reference sequence that contains no more than 1, 2, 3, or 4 base pairs. Accordingly, unaligned reads are reads that cannot be aligned or are poorly aligned. Poorly aligned reads are reads with more mismatches than aligned reads. In some embodiments, reads are considered aligned reads when the reads are aligned to a reference sequence that contains no more than 1%, 2%, 3%, 4%, 5%, or 10% of the nucleotide base pairs.

[00205] После выравнивания парных концевых прочтений с эталонной последовательностью, содержащей исследуемую последовательность повторов, в рамках процесса 300 выполняют определение базовых и закрепленных прочтений между парными концевыми прочтениями. См. блок 306. Как упоминалось выше, базовые прочтения представляют собой парные концевые прочтения, выровненные с последовательностью повторов или с пространством вблизи нее. В некоторых вариантах реализации базовые прочтения представляют собой парные концевые прочтения, которые выровнены в пределах 1 т. п. н. Последовательности повторов. Закрепленные прочтения являются спаренными с базовыми прочтениями, но при этом они не могут быть выровнены или являются плохо выровненными с эталонной последовательностью, как описано выше. [00205] After aligning the paired-end reads to a reference sequence containing the repeat sequence of interest, process 300 determines base and anchor reads between the paired-end reads. See block 306. As mentioned above, base reads are paired-end reads that are aligned to or near the repeat sequence. In some embodiments, base reads are paired-end reads that are aligned within 1 kb of the repeat sequence. Anchor reads are paired with base reads, but fail to align or are poorly aligned with the reference sequence, as described above.

[00206] В рамках процесса 300 анализируют количество повторов повторяющихся звеньев в определенных базовых и/или закрепленных прочтениях для определения наличия или отсутствия экспансии последовательности повторов. Более конкретно, процесс 300 включает в себя применение числа повторов в прочтениях для получения чисел прочтений большого объема в базовых и/или закрепленных прочтениях. Прочтения большого объема представляют собой прочтения с большим количеством повторов, чем пороговое значение. В некоторых вариантах реализации прочтения большого объема получают только из закрепленных прочтений. В других вариантах реализации прочтения большого объема получают как с базовых, так и с закрепленных прочтений. Если в некоторых вариантах реализации число повторов приближается к максимально возможному числу повторов для прочтения, прочтение считают прочтением большого объема. Например, если прочтение составляет 100 п. н. о., а рассматриваемое повторяющееся звено составляет 3 п. н. о., максимальное число повторов составит 33. Другими словами, максимальное значение рассчитывают на основе длины парных концевых прочтений и длины повторяющегося звена. В частности, максимальное число повторов можно получить путем деления длины прочтения на длину повторяющегося звена и округления полученного значения в меньшую сторону. В данном примере в рамках различных вариантов реализации могут определять прочтения 100 п. н. о., имеющие по меньшей мере около 28, 29, 30, 31, 32 или 33 повторов в прочтениях большого объема. Количество повторов в прочтениях большого объема может регулироваться в большую или меньшую сторону на основании эмпирических факторов. В разнообразных вариантах реализации пороговое значение для прочтений большого объема составляет по меньшей мере около 80%, 85%, 90% или 95% от максимального числа повторов. [00206] The process 300 analyzes the number of repeats of the repeat units in certain base and/or anchored reads to determine the presence or absence of a repeat sequence expansion. More specifically, the process 300 includes using the number of repeats in the reads to obtain high-volume read numbers in the base and/or anchored reads. High-volume reads are reads with more repeats than a threshold. In some embodiments, high-volume reads are obtained only from anchored reads. In other embodiments, high-volume reads are obtained from both base and anchored reads. If, in some embodiments, the number of repeats approaches the maximum possible number of repeats for a read, the read is considered a high-volume read. For example, if a read is 100 bp and the repeat unit in question is 3 bp, i.e., the maximum number of repeats will be 33. In other words, the maximum value is calculated based on the length of the paired end reads and the length of the repeat unit. In particular, the maximum number of repeats can be obtained by dividing the length of the read by the length of the repeat unit and rounding the resulting value down. In this example, various embodiments may determine 100 bp reads having at least about 28, 29, 30, 31, 32, or 33 repeats in the large reads. The number of repeats in the large reads may be adjusted up or down based on empirical factors. In various embodiments, the threshold value for the large reads is at least about 80%, 85%, 90%, or 95% of the maximum number of repeats.

[00207] Затем в рамках процесса 300 определяют возможное присутствие экспансии повторов в последовательности повторов на основании количества прочтений большого объема. См. блок 310. В некоторых вариантах реализации в рамках анализа полученные прочтения большого объема сравнивают с критерием распознавания и выполняют определение вероятного присутствия экспансии повторов при превышении значений критерия. В некоторых вариантах реализации критерий распознавания получают на основе распределения прочтений контрольных образцов большого объема. Например, анализируют множество контрольных образцов, имеющих или предположительно имеющих нормальную последовательность повторов, и для контрольных образцов получают прочтения большого объема таким же образом, как описано выше. Можно выполнить распределение прочтений большого объема отн. контрольных образцов и оценить вероятность появления незатронутого образца с прочтениями большого объема, превышающими конкретное значение. Данная вероятность позволяет определять чувствительность и селективность с учетом критерия распознавания, установленного относительно данного конкретного значения. В некоторых вариантах реализации критерий распознавания устанавливают на пороговое значение, и таким образом вероятность появления незатронутого образца с прочтениями большого объема, превышающими пороговое значение, составляет менее 5%. Другими словами, p-значение меньше, чем 0,05. В данных вариантах реализации по мере экспансии повторов последовательность повторов становится длиннее, и появляется возможность появления большего количества прочтений исключительно в рамках в последовательности повторов, а также появляется возможность получения большего количества прочтений образца. В разнообразных альтернативных вариантах реализации можно выбрать более заниженный критерий распознавания таким образом, чтобы вероятность появления незатронутого образца с прочтениями большого объема, превышающими пороговое значение, составляла менее, чем около 1%, 0,1%, 0,01%, 0,001%, 0,0001% и т. д. Следует понимать, что критерий распознавания можно отрегулировать в сторону повышения или понижения в зависимости от разнообразных факторов и необходимости повышения чувствительности или селективности испытания. [00207] Next, in the process 300, a possible presence of a repeat expansion in the repeat sequence is determined based on the number of high-volume reads. See block 310. In some embodiments, the analysis compares the obtained high-volume reads with a recognition criterion and makes a determination of the likely presence of a repeat expansion when the criterion values are exceeded. In some embodiments, the recognition criterion is obtained based on a distribution of reads of high-volume control samples. For example, a plurality of control samples that have or are suspected of having a normal repeat sequence are analyzed, and high-volume reads are obtained for the control samples in the same manner as described above. The distribution of high-volume reads can be performed relative to the control samples and the probability of an unaffected sample occurring with high-volume reads exceeding a specific value can be estimated. This probability allows for determining sensitivity and selectivity given a recognition criterion set relative to this specific value. In some embodiments, the recognition criterion is set to a threshold value, and thus the probability of an unaffected sample occurring with high-volume reads exceeding the threshold value is less than 5%. In other words, the p-value is less than 0.05. In these embodiments, as the repeats expand, the repeat sequence becomes longer, and it becomes possible for more reads to appear exclusively within the repeat sequence, and it becomes possible for more reads of the sample to be obtained. In various alternative embodiments, a more conservative discrimination criterion can be selected such that the probability of an unaffected sample with large reads exceeding the threshold is less than about 1%, 0.1%, 0.01%, 0.001%, 0.0001%, etc. It should be understood that the discrimination criterion can be adjusted upward or downward depending on various factors and the need to increase the sensitivity or selectivity of the test.

[00208] В некоторых вариантах реализации вместо применения эмпирического варианта получения критерия распознавания по количеству прочтений большого объема от контрольных образцов или в дополнение к нему теоретически может быть получен критерий распознавания для определения экспансии повторов. Можно рассчитать ожидаемое количество прочтений, которые полностью находятся в пределах диапазона повторения, с учетом количества параметров, включая длину парных концевых прочтений, длину последовательности, имеющей экспансию повторов, и глубину секвенирования. Например, можно применять глубину секвенирования для вычисления среднего расстояния между прочтениями в выровненном геноме. В случае, если отдельный образец секвенировали при 30-кратной глубине, общее количество секвенированных оснований равняется результату произведения размера генома на глубину. В случае применения настоящего способа к человеку, данное количество будет составлять около 3×109 × 30=9×1010. Если каждое прочтение имеет длину в 100 п. н. о., то для достижения данной глубины требуется всего 9×108 прочтений. Поскольку геном является диплоидным, половина данных прочтений представляет собой результаты секвенирования одной хромосомы/гаплотипа, а остальные прочтения представляют собой результаты секвенирования другой хромосомы/гаплотипа. На каждый гаплотип проводят по 4,5×108 прочтений, а при делении общего размера генома на это число получают среднее расстояние между начальными положениями каждого прочтения, т. е. в среднем 3×109/4,5×108=1 прочтение на каждые 6,7 п. н. о. Можно использовать данное число для оценки числа прочтений, которые будут полностью находиться в пределах последовательности повторов, на основе размера данной последовательности повторов у конкретного субъекта. В случае, если общий размер последовательности повторов составляет 300 п. н. о., любое прочтение, начинающееся в пределах первых 200 п. н. о. данной последовательности повторов, будет полностью находиться в пределах последовательности повторов (прочтения, начинающиеся в пределах последних 100 п. н. о., будут по меньшей мере частично находиться за пределами последовательности повторов на основании длин прочтений в 100 п. н. о.). Поскольку ожидается, что прочтение будет выравниваться на каждых 6,7 п. н. о., ожидается, что 200 п. н. о. / (6,7 п. н. о. на каждое прочтение) = 30 прочтений будут полностью выравниваться в пределах последовательности повторов. Несмотря на то, что данное число может изменяться, это позволяет оценить общее число прочтений, которые будут полностью находиться в пределах последовательности повторов при любом размере экспансии. Длины последовательностей повторов и ожидаемые количества прочтений, полностью выровненных в последовательности повторов, рассчитанные в соответствии с данным способом, приведены в Таблице 2 примера 1 ниже. [00208] In some embodiments, instead of using the empirical option of deriving a recognition criterion from the number of large-volume reads from control samples, or in addition to it, a recognition criterion for determining a repeat expansion can be theoretically derived. The expected number of reads that are entirely within the range of the repeat can be calculated taking into account a number of parameters, including the length of paired-end reads, the length of the sequence having the repeat expansion, and the sequencing depth. For example, the sequencing depth can be used to calculate the average distance between reads in an aligned genome. In the case where an individual sample was sequenced at 30-fold depth, the total number of bases sequenced is equal to the product of the genome size and the depth. In the case of applying the present method to a human, this number would be about 3×10 9 × 30=9×10 10 . If each read is 100 bp long, This depth requires only 9×10 8 reads. Since the genome is diploid, half of these reads represent sequencing of one chromosome/haplotype, and the remaining reads represent sequencing of the other chromosome/haplotype. There are 4.5×10 8 reads per haplotype, and dividing the total genome size by this number yields the average distance between the starting positions of each read, i.e., on average, 3×10 9 / 4.5×10 8 = 1 read for every 6.7 bp. This number can be used to estimate the number of reads that will lie entirely within the repeat sequence, based on the size of the repeat sequence in a given subject. If the total repeat sequence size is 300 bp, any read starting within the first 200 bp will be within the first 200 bp. of a given repeat sequence will be entirely within the repeat sequence (reads starting within the last 100 bp will be at least partially outside the repeat sequence based on the lengths of the 100 bp reads). Since a read is expected to align every 6.7 bp, 200 bp / (6.7 bp per read) = 30 reads are expected to align entirely within the repeat sequence. Although this number can vary, it provides an estimate of the total number of reads that will be entirely within the repeat sequence for any expansion size. The lengths of the repeat sequences and the expected numbers of reads fully aligned within the repeat sequence calculated according to this method are given in Table 2 of Example 1 below.

[00209] В некоторых вариантах реализации критерий распознавания рассчитывают на основании расстояния между первым и последним наблюдениями последовательности повторов в пределах прочтений, таким образом допуская мутации в последовательности повторов и ошибки секвенирования. [00209] In some embodiments, the recognition criterion is calculated based on the distance between the first and last observations of the repeat sequence within the reads, thus allowing for mutations in the repeat sequence and sequencing errors.

[00210] В некоторых вариантах реализации способ может дополнительно включать в себя диагностирование подверженности субъекта, от которого получен исследуемый образец, повышенному риску развития генетических заболеваний, таких как синдром ломкой X-хромосомы, АБС, болезнь Хантингтона, атаксия Фридрейха, спиномозжечковая атаксия, спинобульбарная мышечная атрофия, миотоническая дистрофия, болезнь Мачадо-Джозефа, дентато-рубро-паллидо-льюисова атрофия и т. д. Такой диагноз может основываться на определении вероятности присутствия экспансии повторов в исследуемом образце, а также на последовательности повторов и генов, связанных с экспансией повторов. В других вариантах реализации в случаях, если генетическое заболевание неизвестно, некоторые варианты реализации могут использоваться для обнаружения аномально большого количества повторов для выявления генетических предпосылок заболевания. [00210] In some embodiments, the method may further include diagnosing whether the subject from whom the test sample is obtained is at increased risk of developing a genetic disease such as fragile X syndrome, ALS, Huntington's disease, Friedreich's ataxia, spinocerebellar ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, dentato-rubro-pallido-Lewis atrophy, etc. Such a diagnosis may be based on determining the likelihood of the presence of a repeat expansion in the test sample, as well as the sequence of the repeats and genes associated with the repeat expansion. In other embodiments, in cases where the genetic disease is unknown, some embodiments may be used to detect an abnormally large number of repeats to identify genetic predispositions to the disease.

[00211] На Фиг. 4 представлена блок-схема, иллюстрирующая другой способ обнаружения экспансии повторов в соответствии с некоторыми вариантами реализации. Для определения наличия экспансии повторов в процессе 400 вместо прочтений большого объема применяют число повторов в парных концевых прочтениях исследуемого образца. Процесс 400 начинают с секвенирования исследуемого образца, содержащего нуклеиновую кислоту, для получения парных концевых прочтений. См. блок 402, эквивалентный блоку 302 процесса 300. Процесс 400 продолжают, путемвыравнивания парных концевых прочтений с эталонной последовательностью, содержащей последовательность повторов. См. блок 404, эквивалентный блоку 304 процесса 300. Процесс продолжают путем определения базовых значений и базовых прочтений в парных концевых прочтениях, причем базовые прочтения осуществляются с выравниванием с последовательностью повторов или пространством вблизи нее, а закрепленные прочтения представляют собой невыровненные прочтения, которые сопряжены с базовыми прочтениями. В некоторых вариантах реализации невыровненные прочтения включают в себя как прочтения, которые не могут быть выровнены, так и прочтения, плохо выровненные с эталонной последовательностью. [00211] Fig. 4 is a flow chart illustrating another method for detecting a repeat expansion in accordance with some embodiments. Instead of large volume reads, process 400 uses the number of repeats in paired end reads of a test sample to determine the presence of a repeat expansion. Process 400 begins by sequencing a test sample containing a nucleic acid to obtain paired end reads. See block 402, equivalent to block 302 of process 300. Process 400 continues by aligning the paired end reads to a reference sequence containing a repeat sequence. See block 404, equivalent to block 304 of process 300. The process continues by determining base values and base reads in the paired end reads, wherein the base reads are in alignment with or near the repeat sequence and the anchor reads are unaligned reads that are paired with the base reads. In some embodiments, unaligned reads include both reads that cannot be aligned and reads that are poorly aligned with the reference sequence.

[00212] После определения базовых и закрепленных прочтений в рамках процесса 400 получают количество повторов в базовых и/или закрепленных прочтениях исследуемого образца. См. блок 408. Затем в рамках процесса получают распределение количества повторов в базовых и/или закрепленных прочтениях исследуемого образца. В некоторых вариантах реализации анализируют только количество повторов, полученное в рамках закрепленных прочтений. В других вариантах реализации анализируют повторы как закрепленных прочтений, так и базовых прочтений. Затем распределение числа повторов исследуемого образца сравнивают с распределением числа повторов одного или более контрольных образцов. См. блок 410. В некоторых вариантах реализации в рамках процесса выполняют определение присутствия экспансии повторов последовательности повторов в исследуемом образце в случае, если распределение исследуемого образца имеет статистически значимые отличия от распределения контрольных образцов. См. блок 412. В процессе 400 анализируют количество повторов относительно прочтений, включая прочтения большого объема и прочтения малого объема, которое отличается от процесса, в рамках которого анализируются только прочтения большого объема, как описано выше относительно процесса 300. [00212] After determining the base and anchored reads, process 400 obtains a repeat count in the base and/or anchored reads of the test sample. See block 408. The process then obtains a repeat count distribution in the base and/or anchored reads of the test sample. In some embodiments, only the repeat count obtained in the anchored reads is analyzed. In other embodiments, both anchored reads and base reads repeats are analyzed. The repeat count distribution of the test sample is then compared to the repeat count distribution of one or more control samples. See block 410. In some embodiments, the process determines the presence of a repeat expansion of a repeat sequence in the test sample if the distribution of the test sample is statistically different from the distribution of the control samples. See block 412. Process 400 analyzes the number of repeats relative to reads, including high-volume reads and low-volume reads, which differs from the process in which only high-volume reads are analyzed, as described above with respect to process 300.

[00213] В некоторых вариантах реализации сравнение распределения исследуемого образца с распределением контрольных образцов включает в себя использование рангового критерия Манна-Уитни для определения значительности различий этих двух распределений. В некоторых вариантах реализации в рамках анализа выполняют определение вероятного присутствия экспансии повторов в исследуемом образце в случае, если распределение исследуемого образца в большей степени смещено к большему количеству повторов по сравнению с контрольными образцами, а p-значение рангового критерия Манна-Уитни составляет менее чем около 0,0001 или 0,00001. При необходимости можно выполнять корректировку р-значения для улучшения селективности или чувствительности теста. [00213] In some embodiments, comparing the distribution of the test sample to the distribution of the control samples includes using a Mann-Whitney rank test to determine whether the two distributions differ significantly. In some embodiments, the assay determines whether a repeat expansion is likely to be present in the test sample if the distribution of the test sample is more skewed toward a higher number of repeats than the control samples and the p-value of the Mann-Whitney rank test is less than about 0.0001 or 0.00001. If necessary, the p-value may be adjusted to improve the selectivity or sensitivity of the test.

[00214] В рамках процессов обнаружения экспансии повторов, описанной выше относительно Фиг. 2-4, применяют закрепленные прочтения, которые представляют собой невыровненные прочтения, спаренные с прочтениями, выровненными относительно исследуемой последовательности повторов. Вариации в данных процессах могут включать в себя поиск среди невыровненных прочтений таких пар прочтений, которые практически полностью состоят из последовательности повторов какого-либо типа для обнаружения новых ранее неопределенных экспансий повторов, которые могут являться значимыми с медицинской точки зрения. Данный способ не позволяет выполнить количественную оценку точного числа повторов, но является эффективным для определения крайних экспансий повторов или артефактов, которые должны быть помечены для дальнейшего выполнения количественного определения. В сочетании с более длинными прочтениями, в рамках данного способа можно выполнять как определение, так и количественную оценку повторов до 200 п. н. о. или более в пределах общей длины. [00214] The repeat expansion detection processes described above with respect to Figs. 2-4 employ anchored reads, which are unaligned reads paired with reads aligned to the repeat sequence of interest. Variations in these processes may include searching the unaligned reads for read pairs that consist almost entirely of some type of repeat sequence to detect new, previously unidentified repeat expansions that may be medically significant. This method does not allow for quantification of the exact number of repeats, but is effective in identifying extreme repeat expansions or artifacts that should be flagged for subsequent quantification. When combined with longer reads, this method can both detect and quantify repeats up to 200 bp or more within the total length.

[00215] На Фиг. 5 проиллюстрирована блок-схема процесса 500, в котором для определения экспансии повторов применяют невыровненные прочтения, не связанные с какой-либо исследуемой последовательностью повторов. В рамках процесса 500 для обнаружения экспансии повторов можно применять невыровненные прочтения целого генома. Процесс начинают с секвенирования исследуемого образца, содержащего нуклеиновые кислоты, для получения парных концевых прочтений. См. блок 502. Процесс 500 продолжают путем выравнивания парных концевых прочтений с эталонным геномом. См. блок 504. Затем в рамках процесса выполняют определение невыровненных прочтений целого генома. Невыровненные прочтения включают в себя парные концевые прочтения, которые не могут быть выровнены или являются плохо выровненными с эталонной последовательностью. См. блок 506. Затем в рамках процесса анализируют число повторов повторяющегося звена в невыровненных прочтениях для определения вероятности наличия экспансии повторов в исследуемом образце. Такой анализ может не зависеть от какой-либо конкретной последовательности повторов. Такой анализ можно применять к разнообразным повторяющимся звеньям, и число повторов в различных повторяющихся звеньях исследуемого образца можно сравнить с числом повторяющихся звеньев в нескольких контрольных образцах. В данном анализе можно применять методы сравнения исследуемого образца с контрольными образцами, описанными выше. В случае, если в результате сравнения было обнаружено, что исследуемый образец имеет аномально большое число повторений повторяющегося звена, можно провести дополнительный анализ для определения наличия экспансии повторов конкретной исследуемой последовательности повторов в исследуемом образце. См. блок 510. [00215] Fig. 5 illustrates a flow chart of a process 500 in which unaligned reads that are not associated with any repeat sequence of interest are used to detect a repeat expansion. The process 500 may use unaligned reads of the entire genome to detect a repeat expansion. The process begins with sequencing a nucleic acid sample of interest to obtain paired-end reads. See block 502. The process 500 continues by aligning the paired-end reads to a reference genome. See block 504. The process then determines unaligned reads of the entire genome. Unaligned reads include paired-end reads that cannot be aligned or are poorly aligned to the reference sequence. See block 506. The process then analyzes the number of repeats of the repeat unit in the unaligned reads to determine the likelihood of a repeat expansion in the sample of interest. Such analysis may be independent of any particular repeat sequence. Such analysis may be applied to a variety of repeat units, and the number of repeats in various repeat units of the sample of interest may be compared to the number of repeat units in several control samples. The analysis may employ the methods of comparing the sample of interest to the control samples described above. In the event that the comparison reveals that the sample of interest has an abnormally high number of repeats of the repeat unit, further analysis may be performed to determine whether the sample of interest contains a repeat expansion of the particular repeat sequence of interest. See block 510.

[00216] В некоторых вариантах реализации дополнительный анализ включает прочтение очень длинных последовательностей, которые потенциально могут охватывать длинные последовательности повторов, имеющие экспансии повторов, являющиеся значимыми с медицинской точки зрения. Прочтения, выполненные в рамках данного дополнительного анализа, длиннее парных концевых прочтений. В некоторых вариантах реализации для получения длинных прочтений используют одномолекулярное секвенирование или синтетическое секвенирование с применением длинных прочтений. В некоторых вариантах реализации связь между экспансией повторов и генетическим заболеванием является известной в данной области. Однако в других вариантах реализации связь между экспансией повторов и генетическим заболеванием может не являться известной в данной области. [00216] In some embodiments, the additional analysis includes very long sequence reads that can potentially span long repeat sequences having repeat expansions that are medically significant. The reads generated as part of this additional analysis are longer than paired end reads. In some embodiments, single-molecule sequencing or synthetic sequencing using long reads is used to obtain the long reads. In some embodiments, the association between the repeat expansion and the genetic disease is known in the art. However, in other embodiments, the association between the repeat expansion and the genetic disease may not be known in the art.

[00217] В некоторых вариантах реализации анализ числа повторов повторяющегося звена в невыровненных прочтениях операции 510 включает в себя выполнение анализа большого объема, сравнимого с анализом, выполняемым в рамках операции 308 (см. Фиг. 3). Анализ включает в себя получение количества прочтений большого объема, причем прочтения большого объема представляют собой невыровненные прочтения с большим количеством повторений, чем пороговое значение; и сравнение числа прочтений большого объема прочтений в исследуемом образце с критерием распознавания. В некоторых вариантах реализации пороговое значение для прочтений большого объема составляет по меньшей мере около 80% от максимального числа повторов, причем максимальное значение рассчитывают как отношение длины парных концевых прочтений к длине повторяющегося звена. В некоторых вариантах реализации прочтения большого объема также включают в себя прочтения, сопряженные с невыровненными прочтениями, и имеющие больше повторений, чем пороговое значение. [00217] In some embodiments, analyzing the number of repeats of the repeat unit in the unaligned reads of operation 510 includes performing a high-volume analysis comparable to the analysis performed in operation 308 (see FIG. 3). The analysis includes obtaining a number of high-volume reads, wherein the high-volume reads are unaligned reads with a greater number of repeats than a threshold; and comparing the number of high-volume reads of reads in the sample under study with a recognition criterion. In some embodiments, the threshold for high-volume reads is at least about 80% of the maximum number of repeats, wherein the maximum value is calculated as the ratio of the length of paired-end reads to the length of the repeat unit. In some embodiments, the high-volume reads also include reads that are paired with unaligned reads and have more repeats than the threshold.

[00218] В некоторых вариантах реализации перед дополнительным анализом операции 510 процесс дополнительно включает в себя (a) определение парных концевых прочтений, сопряженных с невыровненными прочтениями и выровненных с последовательностью повторов на эталонном геноме или с пространством вблизи нее; и (b) предоставление последовательности повторов в качестве конкретной исследуемой последовательности повторов для выполнения операции 510. Затем в рамках дополнительного анализа исследуемой последовательности повторов может использоваться любой из способов в соответствии с Фиг. 2-4, описанных выше. [00218] In some embodiments, prior to further analysis of operation 510, the process further includes (a) determining paired end reads that are paired with the unaligned reads and aligned to a repeat sequence on the reference genome or in the vicinity thereof; and (b) providing the repeat sequence as a specific repeat sequence of interest to perform operation 510. Further analysis of the repeat sequence of interest may then use any of the methods in accordance with Figs. 2-4, described above.

ОбразцыSamples

[00219] Образцы, применяемые для определения экспансии повторов, могут включать образцы, взятые из любой клетки, текучей среды, ткани или органа, включая нуклеиновые кислоты, в которых необходимо определить экспансию повторов в одной исследуемой последовательности повторов или более. В некоторых вариантах реализации, связанных с диагностикой плода, предпочтительно получать свободно-клеточные нуклеиновые кислоты, например, свободно-клеточную ДНК (скДНК), из жидкости материнского организма. Свободно-клеточные нуклеиновые кислоты, включая свободно-клеточную ДНК, можно получать разнообразными способами, известными в данной области, из биологических образцов, включая, без ограничений, плазму, серозный экссудат и мочу (см., например, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; and Su et al., J Mol. Diagn. 6: 101-107 [2004]). [00219] Samples used to determine repeat expansion may include samples taken from any cell, fluid, tissue, or organ, including nucleic acids, in which it is desired to determine repeat expansion in one or more repeat sequences of interest. In some embodiments involving fetal diagnosis, it is preferable to obtain cell-free nucleic acids, such as cell-free DNA (cfDNA), from maternal body fluid. Cell-free nucleic acids, including cell-free DNA, can be obtained by a variety of methods known in the art from biological samples including, but not limited to, plasma, serous exudate, and urine (see, e.g., Fan et al., Proc Natl Acad Sci 105:16266–16271 [2008]; Koide et al., Prenatal Diagnosis 25:604–607 [2005]; Chen et al., Nature Med. 2: 1033–1035 [1996]; Lo et al., Lancet 350: 485–487 [1997]; Botezatu et al., Clin Chem. 46: 1078–1084, 2000; and Su et al., J Mol. Diagn. 6: 101–107). [2004]).

[00220] В разнообразных вариантах реализации нуклеиновые кислоты (например, ДНК или РНК), присутствующие в образце, могут быть обогащены специфическим или неспецифическим образом перед применением (например, перед подготовкой библиотеки для секвенирования). В иллюстративных примерах, изображенных ниже, ДНК используются в качестве примера нуклеиновых кислот. Неспецифическое обогащение образца ДНК означает амплификацию всего генома фрагментов геномной ДНК образца, которые можно использовать для повышения уровня образца ДНК до момента подготовки библиотеки для секвенирования скДНК. Способы амплификации целого генома являются известными специалистам в данной области. Примерами способов амплификации целого генома является ПЦР, примированная вырожденным олигонуклеотидом (DOP), метод ПЦР с применением достройки праймера (PEP) и амплификация с множественным замещением (MDA). В некоторых вариантах реализации образец может представлять собой необогащенную ДНК. [00220] In various embodiments, nucleic acids (e.g., DNA or RNA) present in a sample can be enriched in a specific or non-specific manner prior to use (e.g., prior to preparing a library for sequencing). In the illustrative examples depicted below, DNA is used as an example of nucleic acids. Non-specific enrichment of a DNA sample refers to whole-genome amplification of genomic DNA fragments of a sample that can be used to enhance the level of the DNA sample prior to preparing a library for cDNA sequencing. Whole-genome amplification methods are known to those skilled in the art. Examples of whole-genome amplification methods include degenerate oligonucleotide primed (DOP) PCR, primer extension PCR (PEP), and multiple displacement amplification (MDA). In some embodiments, the sample may be unenriched DNA.

[00221] Образец, содержащий нуклеиновые кислоты, к которым применяют способы, описанные в настоящем документе, обычно включает в себя биологический образец («исследуемый образец»), как описано выше. В некоторых вариантах реализации нуклеиновые кислоты, подлежащие проверке на предмет экспансии повторов, очищают или выделяют любым из хорошо известных способов. [00221] A sample containing nucleic acids to which the methods described herein are applied typically includes a biological sample (a "test sample") as described above. In some embodiments, nucleic acids to be tested for repeat expansion are purified or isolated by any of a number of well-known methods.

[00222] Соответственно, в определенных вариантах реализации образец содержит или по существу состоит из очищенного или выделенного полинуклеотида, либо может содержать образцы, в том числе образец ткани, образец биологической текучей среды, клеточный образец и т. п. Подходящие образцы биологической текучей среды включают, без ограничений, образцы крови, плазмы, серозного экссудата, пота, слезной жидкости, мокроты, мочи, ушной жидкости, лимфы, слюны, спинномозговой жидкости, лаважа, суспензии костного мозга, влагалищной жидкости, трансцервикального лаважа, жидкости головного мозга, асцитической жидкости, секретов дыхательных, кишечных и мочеполовых путей, амниотической жидкости, молока и образцов лейкофореза. В некоторых вариантах реализации образец представляет собой образец, легко получаемый неинвазивными процедурами, например, кровь, плазму, серозный экссудат, пот, слезную жидкость, мокроту, мочу, ушную жидкость, слюну или фекалии. В некоторых вариантах реализации образец представляет собой образец периферической крови или фракции плазмы и/или серозного экссудата образца периферической крови. В других вариантах реализации биологический образец представляет собой материал, полученный путем выполнения биопсии, взятия смыва, мазка, либо клеточную культуру. В другом варианте реализации образец представляет собой смесь двух или более биологических образцов; например, биологический образец может включать в себя два или более образца биологической текучей среды, ткани или клеточной культуры. Используемые в настоящем документе термины «кровь», «плазма» и «серозный экссудат» относятся к фракциям или их обработанным частям. Аналогичным образом, в случае, если образец получают путем выполнения биопсии, взятия смыва, мазка и т. д., термин «образец» обозначает обработанную фракцию или часть, полученную путем выполнения биопсии, взятия смыва, мазка и т. д. [00222] Accordingly, in certain embodiments, the sample comprises or consists essentially of a purified or isolated polynucleotide, or may comprise samples, including a tissue sample, a biological fluid sample, a cellular sample, and the like. Suitable biological fluid samples include, but are not limited to, blood, plasma, serous exudate, sweat, lacrimal fluid, sputum, urine, otic fluid, lymph, saliva, cerebrospinal fluid, lavage, bone marrow suspension, vaginal fluid, transcervical lavage, brain fluid, ascitic fluid, respiratory, intestinal, and genitourinary secretions, amniotic fluid, milk, and leukophoresis samples. In some embodiments, the sample is a sample that is readily obtainable by non-invasive procedures, such as blood, plasma, serous exudate, sweat, lacrimal fluid, sputum, urine, otic fluid, saliva, or feces. In some embodiments, the sample is a peripheral blood sample or a plasma fraction and/or serous exudate of a peripheral blood sample. In other embodiments, the biological sample is material obtained by performing a biopsy, taking a wash, smear, or a cell culture. In another embodiment, the sample is a mixture of two or more biological samples; for example, the biological sample may include two or more samples of a biological fluid, tissue, or cell culture. As used herein, the terms "blood,""plasma," and "serous exudate" refer to fractions or processed portions thereof. Similarly, if the sample is obtained by performing a biopsy, taking a wash, smear, etc., the term "sample" refers to a processed fraction or portion obtained by performing a biopsy, taking a wash, smear, etc.

[00223] В некоторых вариантах реализации образцы могут быть получены из источников, включая, без ограничений, образцы, полученные от разных субъектов, образцы от одних и тех же или разных субъектов с разными стадиями развития, образцы от разных заболевших субъектов (например, субъекты с подозрением на наличие генетического заболевания), здоровых субъектов, образцы, полученные на разных стадиях заболевания пациента, образцы, полученные от пациента, подвергнутого различным способам лечения заболевания, образцы, полученные от пациентов, подвергнутых воздействию различных факторов окружающей среды, образцы, полученные от пациентов, предрасположенных к проявлению патологий, образцы, полученные от пациентов, подверженных воздействию инфекционного возбудителя заболевания и т. п. [00223] In some embodiments, samples may be obtained from sources including, but not limited to, samples obtained from different subjects, samples from the same or different subjects at different stages of development, samples from different diseased subjects (e.g., subjects suspected of having a genetic disease), healthy subjects, samples obtained at different stages of a patient's disease, samples obtained from a patient undergoing different treatments for a disease, samples obtained from patients exposed to different environmental factors, samples obtained from patients predisposed to the manifestation of pathologies, samples obtained from patients exposed to an infectious disease agent, and the like.

[00224] В одном иллюстративном варианте реализации, не имеющем ограничительного характера, образец представляет собой образец, полученный из организма беременной женщины. В данному случае образец можно анализировать с использованием способов, описанных в настоящем документе, для выполнения пренатальной диагностики потенциальных хромосомных аномалий плода. Образец, полученный из организма матери, может представлять собой образец ткани, образец биологической текучей среды или клеточный образец. Термин «биологическая текучая среда» подразумевает, без ограничений, кровь, плазму, серозный экссудат, пот, слезную жидкость, мокроту, мочу, ушную жидкость, лимфу, слюну, спинномозговую жидкость, лаваж, суспензию костного мозга, влагалищную жидкость, трансцервикальный лаваж, жидкость головного мозга, асцитическую жидкость, секреты дыхательных, кишечных и мочеполовых путей, амниотическую жидкость, молоко и лейкоциты крови. [00224] In one exemplary, non-limiting embodiment, the sample is a sample obtained from a pregnant woman. In this case, the sample can be analyzed using the methods described herein to perform a prenatal diagnosis of potential fetal chromosomal abnormalities. The sample obtained from the mother can be a tissue sample, a biological fluid sample, or a cellular sample. The term "biological fluid" includes, but is not limited to, blood, plasma, serous exudate, sweat, tears, sputum, urine, ear fluid, lymph, saliva, cerebrospinal fluid, lavage, bone marrow suspension, vaginal fluid, transcervical lavage, brain fluid, ascitic fluid, respiratory, intestinal and genitourinary secretions, amniotic fluid, milk and white blood cells.

[00225] В некоторых вариантах реализации образцы также могут быть получены из тканей, клеток или других полинуклеотидсодержащих источников, культивированных в искусственных условиях. Культивируемые образцы могут получать из источников, включая, без ограничений, различные культуры (например, ткани или клетки), содержащиеся в различных средах и условиях (например, pH, давление и температура), культуры (например, ткани или клетки), хранящиеся в течение различных периодов времени, культуры (например, ткани или клетки), обработанные с применением различных факторов или реагентов (например, потенциальных лекарственных препаратов или модуляторов), либо культуры, принадлежащие к различным типам тканей и/или клеток. [00225] In some embodiments, samples may also be obtained from tissues, cells, or other polynucleotide-containing sources cultured in vitro. Cultured samples may be obtained from sources including, but not limited to, different cultures (e.g., tissues or cells) maintained in different environments and conditions (e.g., pH, pressure, and temperature), cultures (e.g., tissues or cells) maintained for different periods of time, cultures (e.g., tissues or cells) treated with different factors or reagents (e.g., potential drugs or modulators), or cultures belonging to different types of tissues and/or cells.

[00226] Способы выделения нуклеиновых кислот из биологических источников являются хорошо изученными и могут различаться в зависимости от свойств конкретного источника. Специалисты в данной области могут выполнять выделение нуклеиновых кислот из источника по мере необходимости в рамках способа, описанного в настоящем документе. В некоторых случаях фрагментация молекул нуклеиновой кислоты в образце нуклеиновой кислоты может являться предпочтительной. Фрагментацию могут выполнять в случайном порядке, а также в специфическом порядке, например, при расщеплении рестрикционной эндонуклеазой. Способы случайной фрагментации, выполняемой в случайном порядке, хорошо известны в рамках данной области и включают в себя, например, ограниченное расщепление дезоксирибонуклеазой, обработку щелочью и физическое гидродинамическое фрагментирование. [00226] Methods for isolating nucleic acids from biological sources are well understood and may vary depending on the properties of the particular source. Those skilled in the art can perform the isolation of nucleic acids from a source as needed within the framework of the method described herein. In some cases, fragmentation of nucleic acid molecules in a nucleic acid sample may be preferred. Fragmentation may be performed in a random order, as well as in a specific order, such as by restriction endonuclease digestion. Random fragmentation methods performed in a random order are well known in the art and include, for example, limited deoxyribonuclease digestion, alkaline treatment, and physical hydrodynamic fragmentation.

Подготовка библиотек для секвенированияPreparing libraries for sequencing

[00227] В разнообразных вариантах реализации секвенирование можно проводить на разнообразных платформах для секвенирования, требующих подготовки библиотеки для секвенирования. Подготовка, как правило, включает в себя фрагментирование ДНК (обработку ультразвуком, пульверизацию или гидродинамическое фрагментирование) с последующей репарацией ДНК и обработкой концов (тупого конца или нависающего конца А), а также лигирование адаптера, характерное для используемой платформы. В одном варианте реализации в рамках способов, описанных в настоящем документе, можно использовать технологии секвенирования следующего поколения (NGS), которые позволяют проводить секвенирование множества образцов по отдельности в виде геномных молекул (т. е. одноканальное секвенирование) или в виде объединенных образцов, содержащих индексированные геномные молекулы (например, многоканальное секвенирование) в рамках одного цикла секвенирования. В рамках данных способов могут генерировать до нескольких сотен миллионов прочтений последовательностей ДНК. В разнообразных вариантах реализации последовательности геномных нуклеиновых кислот и/или индексированных геномных нуклеиновых кислот могут определять, например, с использованием технологий секвенирования следующего поколения (NGS), описанных в настоящем документе. В разнообразных вариантах реализации анализ большого объема данных последовательности, полученных с использованием NGS, могут выполнять с применением одного или более процессоров, как описано в настоящем документе. [00227] In various embodiments, sequencing can be performed on a variety of sequencing platforms that require preparation of a sequencing library. Preparation typically includes DNA shearing (sonication, pulverization, or hydrodynamic shearing) followed by DNA repair and end treatment (blunt end or overhanging A end) and adaptor ligation specific to the platform used. In one embodiment, the methods described herein can utilize next generation sequencing (NGS) technologies that allow multiple samples to be sequenced individually as genomic molecules (i.e., single-channel sequencing) or as pooled samples containing indexed genomic molecules (e.g., multi-channel sequencing) in a single sequencing run. These methods can generate up to several hundred million DNA sequence reads. In various embodiments, genomic nucleic acid sequences and/or indexed genomic nucleic acids may be determined, for example, using next-generation sequencing (NGS) technologies described herein. In various embodiments, analysis of large amounts of sequence data obtained using NGS may be performed using one or more processors as described herein.

[00228] В разнообразных вариантах реализации применение таких технологий секвенирования не включает в себя подготовку библиотек для секвенирования. [00228] In various embodiments, the use of such sequencing technologies does not involve the preparation of libraries for sequencing.

[00229] Однако в определенных вариантах реализации предусмотренные в настоящем документе способы секвенирования включают в себя подготовку библиотек для секвенирования. В одном иллюстративном подходе подготовка библиотек для секвенирования включает в себя получение случайного набора модифицированных адаптером фрагментов ДНК (например, полинуклеотидов), готовых к секвенированию. Библиотеки для секвенирования полинуклеотидов можно получить из ДНК или РНК, включая эквиваленты, аналоги ДНК или кДНК, например ДНК или кДНК, которые являются комплементарными, или из копийной ДНК, полученной из матрицы РНК, под действием обратной транскриптазы. Полинуклеотиды могут образовываться, имея двухцепочечную форму (например, дцДНК, такая как фрагменты геномной ДНК, кДНК, продукты ПЦР-амплификации и т. п.) или в определенных вариантах реализации полинуклеотиды могут быть образованы, имея одноцепочечную форму (например, оцДНК, РНК и т. п.), и преобразованы в форму дцДНК. В качестве примера в определенных вариантах реализации одноцепочечные молекулы мРНК могут быть скопированы в двухцепочечные кДНК, пригодные для применения при подготовке библиотеки для секвенирования. Точная последовательность первичных полинуклеотидных молекул, в целом, не является материалом для применения в рамках способа подготовки библиотеки, и может быть как известной, так и неизвестной. В одном варианте реализации полинуклеотидные молекулы представляют собой молекулы ДНК. Более конкретно, в определенных вариантах реализации молекулы полинуклеотида представляют собой весь генетический комплемент организма или по существу весь генетический комплемент организма и представляют собой молекулы геномной ДНК (например, клеточной ДНК, свободно-клеточной ДНК (скДНК) и т. д.), которые, как правило, включают как интронную последовательность, так и экзонную последовательность (кодирующую последовательность), а также некодирующие регуляторные последовательности, такие как промоторные и энхансерные последовательности. В некоторых вариантах реализации первичные полинуклеотидные молекулы содержат молекулы геномной ДНК человека, например, молекулы скДНК, присутствующие в периферической крови беременного пациента. [00229] However, in certain embodiments, the sequencing methods provided herein include preparing sequencing libraries. In one exemplary approach, preparing sequencing libraries includes obtaining a random set of adapter-modified DNA fragments (e.g., polynucleotides) ready for sequencing. Polynucleotide sequencing libraries can be prepared from DNA or RNA, including DNA or cDNA equivalents, analogs, such as DNA or cDNA that are complementary, or from replicate DNA prepared from an RNA template by the action of a reverse transcriptase. Polynucleotides can be formed in a double-stranded form (e.g., dsDNA, such as genomic DNA fragments, cDNA, PCR amplified products, etc.) or, in certain embodiments, polynucleotides can be formed in a single-stranded form (e.g., ssDNA, RNA, etc.) and converted to a dsDNA form. As an example, in certain embodiments, single-stranded mRNA molecules can be copied into double-stranded cDNAs suitable for use in preparing a library for sequencing. The exact sequence of the primary polynucleotide molecules is generally not a material for use in the library preparation method, and may or may not be known. In one embodiment, the polynucleotide molecules are DNA molecules. More specifically, in certain embodiments, the polynucleotide molecules are the entire genetic complement of an organism, or substantially the entire genetic complement of an organism, and are genomic DNA molecules (e.g., cellular DNA, cell-free DNA (cfDNA), etc.), which typically include both an intronic sequence and an exonic sequence (coding sequence), as well as non-coding regulatory sequences such as promoter and enhancer sequences. In some embodiments, the primary polynucleotide molecules comprise human genomic DNA molecules, such as cDNA molecules present in the peripheral blood of a pregnant patient.

[00230] Получение библиотек для секвенирования для некоторых платформ секвенирования NGS облегчается применением полинуклеотидов, содержащих определенный диапазон размеров фрагментов. Получение таких библиотек обычно включает фрагментацию больших полинуклеотидов (например, клеточной геномной ДНК) для получения полинуклеотидов в желаемом диапазоне размеров для определения экспансии повторов. [00230] The generation of sequencing libraries for some NGS sequencing platforms is facilitated by the use of polynucleotides containing a defined range of fragment sizes. The generation of such libraries typically involves fragmenting large polynucleotides (e.g., cellular genomic DNA) to obtain polynucleotides in the desired size range for repeat expansion determination.

[00231] Длина фрагмента или вставки больше длины прочтения и, как правило, больше суммы длин двух прочтений. [00231] The length of a fragment or insert is greater than the length of a read and is typically greater than the sum of the lengths of two reads.

[00232] В некоторых примерах вариантов реализации образец нуклеиновой кислоты (нуклеиновых кислот) получают в виде геномной ДНК, которую (которые) подвергают фрагментации на фрагменты, содержащие около 100, 200, 300, 400, 500 или более пар нуклеотидных оснований и к которым можно применять способы NGS. В некоторых вариантах реализации парные концевые прочтения получают из вставок длиной около 100-5 000 п. н. о. В некоторых вариантах реализации вставки имеют длину около 100-1 000 п. н. о. Иногда их реализуют как обычные парные концевые прочтения с короткими вставками. В некоторых вариантах реализации вставки имеют длину около 1 000-5 000 п. н. о. Иногда их реализуют в виде прочтений сопряженных пар с длинными вставками, как описано выше. [00232] In some exemplary embodiments, the nucleic acid sample(s) is/are obtained as genomic DNA that is fragmented into fragments containing about 100, 200, 300, 400, 500 or more base pairs and to which NGS methods can be applied. In some embodiments, paired-end reads are obtained from inserts that are about 100-5,000 bp in length. In some embodiments, the inserts are about 100-1,000 bp in length. Sometimes, these are implemented as regular paired-end reads with short inserts. In some embodiments, the inserts are about 1,000-5,000 bp in length. Sometimes, these are implemented as mate paired reads with long inserts, as described above.

[00233] В некоторых вариантах реализации длинные вставки могут использоваться для оценки очень длинных расширенных последовательностей повторов. В некоторых вариантах реализации для получения прочтений, разделенных тысячами пар нуклеотидных оснований, могут применяться прочтения сопряженных пар. В данных вариантах реализации вставки или фрагменты находятся в диапазоне от сотен до тысяч пар нуклеотидных оснований с двумя адаптерами биотинового соединения на двух концах вставки. Затем адаптеры биотинового соединения соединяют два конца вставки с образованием круглой молекулы, которая затем дополнительно фрагментируется. Для секвенирования на платформе, выполненной с возможностью секвенирования более коротких фрагментов, выбрана субфрагмент, включающий в себя адаптеры биотинового соединения и два конца исходной вставки. [00233] In some embodiments, long inserts can be used to evaluate very long extended repeat sequences. In some embodiments, mate-pair reads can be used to obtain reads separated by thousands of base pairs. In these embodiments, the inserts or fragments are in the range of hundreds to thousands of base pairs with two biotin compound adapters at the two ends of the insert. The biotin compound adapters then connect the two ends of the insert to form a circular molecule, which is then further fragmented. A subfragment including the biotin compound adapters and the two ends of the original insert is selected for sequencing on a platform capable of sequencing shorter fragments.

[00234] Фрагментация могут осуществлять любым из ряда способов, известных специалистам в данной области. Например, фрагментацию можно выполнять механическими средствами, включая, без ограничений, пульверизацию, обработку ультразвуком и гидродинамическое фрагментирование. Однако механическая фрагментация, как правило, расщепляет каркас ДНК по связям C-O, P-O и C-C с образованием гетерогенной смеси тупых и 3'- и 5'-нависающих концов с разорванными связями C-O, P-O и C-C (см., например, Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]), которым может потребоваться восстановление, поскольку в них может отсутствовать необходимый 5’-фосфат для проведения последующих ферментативных реакций, например, для лигирования адаптеров секвенирования, необходимых для получения ДНК для секвенирования. [00234] Fragmentation can be accomplished by any of a number of methods known to those skilled in the art. For example, fragmentation can be accomplished by mechanical means, including, but not limited to, pulverization, sonication, and hydrodynamic fragmentation. However, mechanical fragmentation typically cleaves the DNA backbone at the C-O, P-O, and C-C bonds to produce a heterogeneous mixture of blunt and 3'- and 5'-overhanging ends with broken C-O, P-O, and C-C bonds (see, e.g., Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]), which may require repair because they may lack the necessary 5'-phosphate to carry out subsequent enzymatic reactions, such as ligation of sequencing adapters needed to generate DNA for sequencing.

[00235] Напротив, скДНК, как правило, существует в виде фрагментов менее около 300 пар нуклеотидных оснований, и, следовательно, фрагментация, как правило, не требуется для генерирования библиотеки для секвенирования с использованием образцов скДНК. [00235] In contrast, scDNA typically exists in fragments of less than about 300 base pairs, and therefore fragmentation is generally not required to generate a sequencing library using scDNA samples.

[00236] Как правило, независимо от того, подвергались ли полинуклеотиды искусственной фрагментации (например, фрагментации в искусственных условиях), либо они существуют в виде фрагментов в естественных условиях, они конвертируются в ДНК с тупыми концами, содержащие 5’-фосфаты и 3’-гидроксил. В стандартных протоколах, например, протоколах секвенирования с использованием, в том числе, платформы Illumina, как описано в других разделах настоящего документа, приведены инструкции по восстановлению конца образца ДНК, очищению продуктов с восстановленными концами перед присоединением к концу dA и очищению продуктов, присоединенных к концу dA перед этапами подготовки библиотеки с применением лигирования адаптера. [00236] In general, whether polynucleotides have been artificially fragmented (e.g., fragmented in vitro) or exist as fragments in vivo, they are converted to blunt-ended DNA containing 5'-phosphates and a 3'-hydroxyl. Standard protocols, such as sequencing protocols using, among other things, the Illumina platform as described elsewhere herein, provide instructions for end repair of the DNA sample, purification of end-repaired products prior to dA end-joining, and purification of dA end-joined products prior to library preparation steps using adapter ligation.

[00237] Разнообразные варианты реализации способов подготовки библиотек для секвенирования, описанные в настоящем документе, устраняют необходимость в выполнении одной или более стадий, выполнение которых обычно требуется в рамках стандартных протоколов для получения модифицированного продукта ДНК, который может быть секвенирован NGS. Сокращенный способ (сокр. способ), 1-стадийный способ и 2-стадийный способ представляют собой примеры способов подготовки библиотеки для секвенирования, которые можно найти в патентной заявке 13/555 037, поданной 20 июля 2012 г., содержание которой полностью включено в настоящий документ путем ссылки. [00237] The various embodiments of the methods for preparing sequencing libraries described herein eliminate the need for one or more steps typically required in standard protocols to produce a modified DNA product that can be sequenced by NGS. The abbreviated method (abbreviated method), 1-step method, and 2-step method are examples of methods for preparing a sequencing library that can be found in patent application Ser. No. 13/555,037, filed July 20, 2012, the contents of which are incorporated herein by reference in their entirety.

5.12. Способы секвенирования5.12. Sequencing methods

[00238] Как указано выше, полученные образцы (например, библиотеки для секвенирования) секвенируют в рамках методики определения вариации (вариаций) числа копий. Могутт применять любую из множества технологий секвенирования. [00238] As noted above, the resulting samples (e.g., sequencing libraries) are sequenced using a method to determine copy number variation(s). Any of a variety of sequencing technologies may be used.

[00239] На рынке представлены устройства и технологии секвенирования, такие как платформа для секвенирования путем гибридизации, производимая компанией Affymetrix Inc. (г. Саннивейл, штат Калифорния, США), а также платформы для секвенирования путем синтеза производства компании 454 Life Sciences (г. Брэдфорд, штат Коннектикут, США), Illumina/Solexa (г. Сан-Диего, штат Калифорния, США) и Helicos Biosciences (г. Кембридж, штат Массачусетс, США), и платформа для секвенирования путем лигирования производства компании Applied Biosystems (г. Фостер-Сити, штат Калифорния, США), как описано ниже. В дополнение к одномолекулярному секвенированию, которое выполняют с использованием секвенирования путем синтеза методом Helicos Biosciences, другие технологии одномолекулярного секвенирования включают, без ограничений, технологию SMRT™ компании Pacific Biosciences, технологию ION TORRENT™ и метод секвенирования через нанопоры, разработанный, например, компанией Oxford Nanopore Technologies. [00239] Sequencing devices and technologies such as the hybridization sequencing platform manufactured by Affymetrix Inc. (Sunnyvale, CA, USA), synthesis sequencing platforms manufactured by 454 Life Sciences (Bradford, CT, USA), Illumina/Solexa (San Diego, CA, USA), and Helicos Biosciences (Cambridge, MA, USA), and the ligation sequencing platform manufactured by Applied Biosystems (Foster City, CA, USA) are commercially available, as described below. In addition to single-molecule sequencing, which is performed using the Helicos Biosciences sequencing-by-synthesis method, other single-molecule sequencing technologies include, but are not limited to, Pacific Biosciences' SMRT™ technology, ION TORRENT™ technology, and nanopore sequencing such as that developed by Oxford Nanopore Technologies.

[00240] Хотя автоматический метод Сэнгера считается технологией «первого поколения», в рамках применения способов, описанных в настоящем документе, также можно использовать секвенирование Сэнгера, включая автоматическое секвенирование Сэнгера. Дополнительные способы секвенирования включают, без ограничений, технологии визуализации нуклеиновых кислот, например, атомно-силовую микроскопию (АСМ) или просвечивающую электронную микроскопию (ТЭМ). Иллюстративные примеры технологий секвенирования более подробно описаны ниже. [00240] Although the automated Sanger method is considered a "first generation" technology, Sanger sequencing, including automated Sanger sequencing, can also be used in the methods described herein. Additional sequencing methods include, but are not limited to, nucleic acid imaging technologies such as atomic force microscopy (AFM) or transmission electron microscopy (TEM). Illustrative examples of sequencing technologies are described in more detail below.

[00241] В некоторых вариантах реализации описанные способы включают получение информации о последовательности нуклеиновых кислот в исследуемом образце путем массового параллельного секвенирования миллионов фрагментов ДНК с использованием секвенирования путем синтеза по методу Illumina и обратимого химического анализа способа секвенирования на основе терминатора (например, как описано в публикации Bentley et al., Nature 6:53-59 [2009]). Матричная ДНК может представлять собой геномную ДНК, например, клеточную ДНК или скДНК. В некоторых вариантах реализации в качестве матрицы используют геномную ДНК из выделенных клеток, затем ее фрагментируют для образования длин нескольких сотен пар нуклеотидных оснований. В других вариантах реализации в качестве матрицы используется скДНК, и выполнение фрагментации не требуется, поскольку скДНК существует в виде коротких фрагментов. Например, в кровотоке циркулирует скДНК плода в виде фрагментов длиной около в 170 пар нуклеотидных оснований (п. н. о.) (Fan et al., Clin Chem 56:1279-1286 [2010]), и фрагментация ДНК перед выполнением секвенирования не требуется. Технология секвенирования Illumina основана на закреплении фрагментированной геномной ДНК на прозрачной плоской поверхности, на которой находятся олигонуклеотидные якори. Матричную ДНК восстанавливают на конце для получения 5’-фосфорилированных тупых концов, а полимеразное действие фрагмента Кленова используют для добавления одного основания к 3’ концу тупых фосфорилированных фрагментов ДНК. В рамках данного добавления происходит подготовка фрагментов ДНК к лигированию с применением олигонуклеотидных адаптеров, которые имеют нависающий конец одного основания Т на 3’ конце для повышения эффективности лигирования. Олигонуклеотиды адаптера являются комплементарными по отношению к базовым олигонуклеотидам проточной кюветы (не следует путать с базовыми/закрепленными прочтениями в анализе экспансии повторов). В условиях лимитирования и разбавления модифицированную адаптером одноцепочечную матричную ДНК добавляли в проточную кювету и иммобилизовали путем гибридизации с базовыми олигонуклеотидами. Выполняют удлинение и мостиковую амплификацию присоединенных фрагментов ДНК для создания проточной кюветы со сверхвысокой плотностью секвенирования и сотнями миллионов кластеров, каждый из которых содержит около 1 000 копий одной и той же матрицы. В одном варианте реализации выполняется амплификация случайным образом фрагментированной геномной ДНК с использованием ПЦР до того, как ее подвергают кластерной амплификации. В качестве альтернативы используют способ подготовки неамплифицированной геномной библиотеки, а случайным образом фрагментированную геномную ДНК обогащают только с применением кластерной амплификации (Kozarewa et al., Nature Methods 6:291-295 [2009]). Матрицы секвенируют с использованием технологии глубокого четырехцветного секвенирования ДНК путем синтеза, в рамках которой используются обратимые терминаторы со удаляемыми флуоресцентными красителями. Высокочувствительное флуоресцентное детектирование выполняют при помощи возбуждения лазера и использования полного набора внутренних оптических отражающих элементов. Прочтение коротких последовательностей от около десятков до нескольких сотен пар нуклеотидных оснований выравнивают с эталонным геномом, и уникальное сопоставление прочтений коротких последовательностей с эталонным геномом определяют с помощью специально разработанного программного обеспечения для анализа данных. После завершения первого прочтения матрицы можно восстановить непосредственно на месте для обеспечения выполнения второго прочтения с противоположного конца фрагментов. Таким образом, можно использовать одиночное, либо парное концевое секвенирование фрагментов ДНК. [00241] In some embodiments, the disclosed methods include obtaining nucleic acid sequence information in a test sample by massively parallel sequencing of millions of DNA fragments using Illumina sequencing by synthesis and reversible terminator-based sequencing chemistry (e.g., as described in Bentley et al., Nature 6:53-59 [2009]). The template DNA may be genomic DNA, such as cellular DNA or scDNA. In some embodiments, genomic DNA from isolated cells is used as a template and is then fragmented to form lengths of several hundred base pairs. In other embodiments, scDNA is used as a template and fragmentation is not required because the scDNA exists in short fragments. For example, fetal scDNA circulates in the bloodstream in fragments of approximately 170 base pairs (bp) in length (Fan et al., Clin Chem 56:1279–1286 [2010]), and fragmentation of the DNA is not required prior to sequencing. Illumina sequencing technology is based on affixing fragmented genomic DNA to a transparent, flat surface bearing oligonucleotide anchors. The template DNA is end-reduced to produce 5′-phosphorylated blunt ends, and the polymerase action of the Klenow fragment is used to add a single base to the 3′ end of the blunt-phosphorylated DNA fragments. This addition prepares the DNA fragments for ligation using oligonucleotide adapters that have a single T overhang at the 3′ end to improve ligation efficiency. The adapter oligonucleotides are complementary to the base oligonucleotides of the flow cell (not to be confused with the base/anchored reads in the repeat expansion assay). Under limiting and dilution conditions, adapter-modified single-stranded template DNA is added to the flow cell and immobilized by hybridization with the base oligonucleotides. Extension and bridge amplification of the added DNA fragments is performed to create an ultra-high-density sequencing flow cell with hundreds of millions of clusters, each containing about 1,000 copies of the same template. In one embodiment, randomly fragmented genomic DNA is amplified using PCR before it is subjected to cluster amplification. Alternatively, an unamplified genomic library preparation method is used and randomly fragmented genomic DNA is enriched using cluster amplification alone (Kozarewa et al., Nature Methods 6:291–295 [2009]). Arrays are sequenced using deep four-color DNA sequencing by synthesis technology that utilizes reversible terminators with removable fluorescent dyes. Highly sensitive fluorescence detection is accomplished using laser excitation and a full set of internal optical reflectors. Short reads of about tens to hundreds of base pairs are aligned to a reference genome, and the unique mapping of the short reads to the reference genome is determined using custom-designed data analysis software. After completion of the first read, arrays can be reconstructed in situ to allow a second read to be performed from the opposite end of the fragments. Thus, single or paired end sequencing of DNA fragments can be used.

[00242] В разнообразных вариантах реализации настоящего описания можно использовать секвенирование путем синтеза, обеспечивающего парное концевое секвенирование. В некоторых вариантах реализации платформа для секвенирования путем синтеза производства компании Illumina имеет функцию кластеризации фрагментов. Кластеризация представляет собой процесс, в рамках которого каждая молекула фрагмента изотермически амплифицирована. В некоторых вариантах реализации в качестве примера, описанного в настоящем документе, фрагмент имеет два разных адаптера, присоединенных к двум концам фрагмента; такие адаптеры позволяют фрагменту гибридизироваться с двумя разными олигонуклеотидами на поверхности полосы проточной кюветы. Фрагмент дополнительно включает в себя две индексные последовательности на двух концах фрагмента или имеет связь с ними, причем индексные последовательности позволяют использовать метки для определения различных образцов при многоканальном секвенировании. В рамках работы с некоторыми платформами для секвенирования фрагмент, подлежащий секвенированию, также называют вставкой. [00242] In various embodiments of the present disclosure, sequencing by synthesis can be used to provide paired-end sequencing. In some embodiments, the Illumina sequencing by synthesis platform has a fragment clustering feature. Clustering is a process in which each molecule of a fragment is isothermally amplified. In some embodiments, as an example described herein, a fragment has two different adapters attached to the two ends of the fragment; such adapters allow the fragment to hybridize to two different oligonucleotides on the surface of a flow cell strip. The fragment further includes or is linked to two index sequences at the two ends of the fragment, wherein the index sequences allow the use of tags to identify different samples in multi-channel sequencing. In some sequencing platforms, a fragment to be sequenced is also referred to as an insert.

[00243] В некоторых вариантах реализации проточная кювета для кластеризации, использующаяся на платформе Illumina, представляет собой предметное стекло с полосами. Каждая полоса представляет собой стеклянный канал, покрытый олигонуклеотидами двух типов. Гибридизацию выполняют с применением первого из двух типов олигонуклеотидов, находящихся на поверхности. Данный олигонуклеотид является комплементарным по отношению к первому адаптеру на одном конце фрагмента. Полимераза создает комплементарную цепь гибридизированного фрагмента. Двухцепочечную молекулу денатурируют, а исходную матричную цепь вымывают. Оставшаяся цепь клонально амплифицируется посредством применения мостиков параллельно с остальными цепями. [00243] In some embodiments, a clustering flow cell used on the Illumina platform is a banded glass slide. Each band is a glass channel coated with two types of oligonucleotides. Hybridization is performed using the first of the two types of oligonucleotides located on the surface. This oligonucleotide is complementary to the first adapter at one end of the fragment. The polymerase creates a complementary strand of the hybridized fragment. The double-stranded molecule is denatured, and the original template strand is washed out. The remaining strand is clonally amplified by using bridges in parallel with the remaining strands.

[00244] При выполнении мостиковой амплификации вторая область адаптера на втором конце цепи гибридизируется с олигонуклеотидами второго типа на поверхности проточной кюветы. Полимераза создает комплементарную цепь, образуя двухцепочечную мостиковую молекулу. Данную двухцепочечную молекулу денатурируют, в результате чего образуются две одноцепочечные молекулы, присоединенные к проточной кювете двумя разными олигонуклеотидами. Затем процесс повторяет некоторое количество раз; данный процесс проводят одновременно с участием миллионов кластеров, что приводит к клональной амплификации всех фрагментов. После выполнения мостиковой амплификации обратные цепи отщепляют и вымывают, таким образом остаются только прямые цепи. 3’ концы блокируют для предотвращения нежелательного примирования. [00244] In bridge amplification, a second adapter region at the second end of the strand hybridizes to a second type of oligonucleotide on the surface of the flow cell. The polymerase creates a complementary strand, forming a double-stranded bridge molecule. This double-stranded molecule is denatured, resulting in two single-stranded molecules attached to the flow cell by two different oligonucleotides. The process is then repeated a number of times; this process is carried out simultaneously with millions of clusters, resulting in clonal amplification of all fragments. After bridge amplification, the reverse strands are cleaved and washed out, leaving only the forward strands. The 3' ends are blocked to prevent unwanted priming.

[00245] После кластеризации процесс секвенирования начинают с удлинения первого праймера секвенирования, в результате чего получают первое прочтение. В рамках каждого цикла флуоресцентно-меченые нуклеотиды стремятся к добавлению в растущую цепь. На основе последовательности матрицы встраивается только один из них. После добавления каждого нуклеотида кластер возбуждают источником света, и излучается характерный флуоресцентный сигнал. Число циклов определяет длину прочтения. Длина волны излучения и интенсивность сигнала определяют процесс распознавания оснований. Для данного кластера считывание всех идентичных цепей выполняется одновременно. Сотни миллионов кластеров секвенируют путем массового параллельного секвенирования. После завершения первого прочтения продукт прочтения вымывают. [00245] After clustering, the sequencing process begins with the extension of the first sequencing primer, resulting in the first read. Within each cycle, fluorescently labeled nucleotides are recruited to the growing strand. Based on the template sequence, only one of them is inserted. After each nucleotide is added, the cluster is excited by a light source and a characteristic fluorescent signal is emitted. The number of cycles determines the length of the read. The wavelength of the emission and the intensity of the signal determine the process of base recognition. For a given cluster, reads of all identical strands are performed simultaneously. Hundreds of millions of clusters are sequenced by massively parallel sequencing. After the first read is complete, the read product is washed out.

[00246] На следующей стадии работы в соответствии с протоколами с применением двух индексных праймеров, индексный праймер 1 вводят в индексную область 1 матрицы и гибридизируют с ней. Индексные области позволяют выполнять определение фрагментов, которые можно использовать для демультиплексирования образцов в рамках процесса многоканального секвенирования. Прочтение индекса 1 генерируют аналогично первому прочтению. После завершения прочтения индекса 1 продукт прочтения вымывают, а также снимают защиту 3’ конца цепи. Затем матричная цепь складывается и связывается со вторым олигонуклеотидом на проточной кювете. Последовательность индекса 2 считывают таким же образом, как и индекс 1. Затем по завершении стадии продукт прочтения индекса 2 вымывают. [00246] In the next step of the work, according to the protocols using two index primers, index primer 1 is introduced into index region 1 of the template and hybridized thereto. Index regions allow for the detection of fragments that can be used to demultiplex samples as part of the multichannel sequencing process. Index read 1 is generated similarly to the first read. After the index read 1 is completed, the read product is washed out and the 3' end of the strand is deprotected. The template strand is then folded and bound to a second oligonucleotide on the flow cell. Index sequence 2 is read in the same manner as index 1. Then, upon completion of the step, the index read product 2 is washed out.

[00247] После прочтения двух показателей прочтение 2 начинается с использования полимераз для выполнения экспансии олигонуклеотидов второй проточной кюветы, в результате чего образуется двухцепочечный мостик. Данную двухцепочечную ДНК денатурируют, а 3’ конец блокируют. Исходную прямая цепь отщепляют и вымывают, таким образом остается только обратная цепь. Прочтение 2 начинают с введения праймера секвенирования прочтения 2. Как и в случае с прочтением 1, выполнение стадий секвенирования повторяют до момента достижения нужной длины. Продукт прочтения 2 вымывают. В рамках данного процесса можно получить миллионы прочтений, представляющих все фрагменты. Последовательности из объединенных библиотек образцов разделяют на основании уникальных индексов, присвоенных во время подготовки образцов. С участием каждого образца проводят локальную кластеризацию прочтений аналогичных отрезков результатов распознавания оснований. Прочтения в прямом и обратном направлениях спаривают, в результате чего создают связные последовательности. Данные связные последовательности выравнивают с эталонным геномом для определения вариантов. [00247] After the two reads, read 2 begins by using polymerases to expand the oligonucleotides of the second flow cell, resulting in the formation of a double-stranded bridge. This double-stranded DNA is denatured and the 3' end is blocked. The original forward strand is cleaved and washed away, leaving only the reverse strand. Read 2 begins by introducing the read 2 sequencing primer. As with read 1, the sequencing steps are repeated until the desired length is reached. Read 2 is washed away. This process can generate millions of reads representing all fragments. Sequences from the pooled sample libraries are separated based on unique indices assigned during sample preparation. For each sample, reads of similar stretches of base call results are locally clustered. Reads in the forward and reverse directions are paired, resulting in coherent sequences. These linked sequences are aligned with a reference genome to identify variants.

[00248] Пример секвенирования путем синтеза включает в себя использование парных концевых прочтений, которые используют во многих вариантах реализации описанных способов. При парном концевом секвенировании производят 2 прочтения с двух концов фрагмента. Для устранения неоднозначности при выравниваниях используют парные концевые прочтения. При выполнении парного концевого секвенирования пользователи могут выбирать длину вставки (или фрагмента, подлежащего секвенированию) и секвенировать оба конца вставки, что приводит к генерации высококачественных выравниваемых данных последовательности. Поскольку известно расстояние между всеми парными прочтениями, алгоритмы выравнивания могут использовать данную информацию для более точного сопоставления повторяющихся областей. Это позволяет добиться лучшего выравнивания прочтений, особенно в трудно поддающихся секвенированию повторяющихся областях генома. С применением парного концевого секвенирования можно выполнять обнаружение перестроек, в том числе вставок, делеций и инверсий. [00248] An example of sequencing by synthesis includes the use of paired-end reads, which are used in many embodiments of the described methods. In paired-end sequencing, 2 reads are produced from either end of a fragment. Paired-end reads are used to disambiguate alignments. When performing paired-end sequencing, users can select the length of an insert (or fragment to be sequenced) and sequence both ends of the insert, resulting in the generation of high-quality aligned sequence data. Since the distance between all paired-end reads is known, alignment algorithms can use this information to more accurately align repetitive regions. This allows for better alignment of reads, especially in difficult-to-sequence repetitive regions of the genome. Using paired-end sequencing, rearrangements can be detected, including insertions, deletions, and inversions.

[00249] Для парных концевых прочтений можно использовать вставку разной длины (т. е. разный размер фрагмента для секвенирования). В качестве исходного значения в настоящем описании для обозначения прочтений, полученных с различных длин вставок, используются парные концевые прочтения. В некоторых случаях для отличия парных концевых прочтений с короткими вставками от парных концевых прочтений с длинными вставками, последние, в частности, называются прочтениями сопряженных пар. В некоторых вариантах реализации, включающих прочтения сопряженных пар, два адаптера биотинового соединения сначала прикрепляют к двум концам относительно длинной вставки (например, длиной в несколько т. п. н.). Затем адаптеры биотинового соединения связывают два конца вставки с образованием круглой молекулы. Субфрагмент, объединяющий в себе адаптеры биотинового соединения, можно получить путем дополнительного фрагментирования круглой молекулы. Затем субфрагмент, включающий в себя два конца исходного фрагмента в противоположном порядке последовательности, можно секвенировать с применением той же процедуры, что и отн. описанного выше парного концевого секвенирования с короткой вставкой. Дополнительная информация о выполнении секвенирования сопряженных пар с использованием платформы Illumina представлена в онлайн-публикации по следующему адресу: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf. Данная публикация также полностью включена в настоящий документ путем ссылки. [00249] For paired-end reads, inserts of different lengths (i.e., different fragment sizes for sequencing) can be used. As a default value, paired-end reads are used herein to refer to reads obtained from different insert lengths. In some cases, paired-end reads with short inserts are distinguished from paired-end reads with long inserts, the latter in particular are referred to as mate-pair reads. In some embodiments comprising mate-pair reads, two biotin compound adapters are first attached to the two ends of a relatively long insert (e.g., several kb in length). The biotin compound adapters then link the two ends of the insert to form a circular molecule. A subfragment combining the biotin compound adapters can be obtained by further fragmenting the circular molecule. The subfragment, which includes the two ends of the original fragment in opposite sequence order, can then be sequenced using the same procedure as for the short insert paired end sequencing described above. Additional information on performing mate pair sequencing using the Illumina platform is provided in the online publication at the following address: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf. This publication is also incorporated herein by reference in its entirety.

[00250] После секвенирования фрагментов ДНК прочтения последовательностей заданной длины, например, 100 п. н. о., сопоставляют или выравнивают с известным эталонным геномом. Сопоставленные или выровненные прочтения и их соответствующие местоположения на эталонной последовательности также называются тегами. В анализах многих вариантов реализации, описанных в настоящем документе, для определения экспансии повторов используются прочтения, которые являются либо плохо выровненными, либо не могут быть выровнены в принципе, а также используются выровненные прочтения (метки). В одном варианте реализации эталонная геномная последовательность представляет собой последовательность NCBI36/hg18, данные которые можно найти в сети Интернет по следующему адресу: genome.ucsc.edu/cgi- bin/hgGateway?org=Human&db=hg18&hgsid=166260105). В альтернативном варианте реализации эталонная геномная последовательность представляет собой последовательность GRCh37/hg19, данные которые можно найти в сети Интернет по следующему адресу: genome.ucsc.edu/cgi-bin/hgGateway. К другим источникам общедоступной информации о последовательностях относятся база генетических данных, dbEST, dbSTS, EMBL (Европейская лаборатория по молекулярной биологии) и DDBJ (Банк данных ДНК Японии). Выравнивание последовательностей можно выполнять с применением ряда компьютерных алгоритмов, включая, без ограничений, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1- R25.10 [2009]) или ELAND (Illumina, Inc., г. Сан-Диего, штат Калифорния, США). В одном варианте реализации один конец клонально расширенных копий молекул скДНК плазмы секвенируют и обрабатывают путем выполнения биоинформационного анализа выравниваний для анализатора генома Illumina, в котором применяется ПО Efficient Large-Scale Alignment of Nucleotide Databases (ELAND). [00250] After sequencing DNA fragments, sequence reads of a given length, such as 100 bp, are aligned or mapped to a known reference genome. The aligned or mapped reads and their corresponding locations on the reference sequence are also referred to as tags. In many embodiments of the assays described herein, reads that are either poorly aligned or cannot be aligned at all are used to determine repeat expansion, as well as aligned reads (tags). In one embodiment, the reference genomic sequence is the NCBI36/hg18 sequence, which can be found on the Internet at the following address: genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105). In an alternative embodiment, the reference genomic sequence is the GRCh37/hg19 sequence, which can be found on the Internet at the following address: genome.ucsc.edu/cgi-bin/hgGateway. Other sources of publicly available sequence information include the Genetic Database, dbEST, dbSTS, EMBL (European Molecular Biology Laboratory), and DDBJ (DNA Data Bank of Japan). Sequence alignment can be performed using a number of computer algorithms, including, but not limited to, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]), or ELAND (Illumina, Inc., San Diego, CA, USA). In one embodiment, one end of the clonally expanded copies of plasma cDNA molecules is sequenced and processed by performing bioinformatic analysis of the alignments on the Illumina Genome Analyzer using Efficient Large-Scale Alignment of Nucleotide Databases (ELAND) software.

[00251] В одном иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии одномолекулярного секвенирования Helicos True Single Molecule Sequencing (tSMS) (например, описанной в публикации Harris T.D. et al., Science 320:106-109 [2008]). Согласно методике tSMS образец ДНК расщепляют на цепи длиной около от 100 до 200 нуклеотидов, и добавляют последовательность polyA к 3’ концу каждой цепи ДНК. Каждую цепь помечают путем добавления флуоресцентно-меченого аденозина. Затем цепи ДНК гибридизируют с проточной кюветой, содержащей миллионы сайтов захвата T-нуклеотидов, иммобилизованных на поверхности проточной кюветы. В определенных вариантах реализации матрицы могут иметь плотность, равную около 100 миллионам матриц/см2. Проточную кювету загружают в прибор, например, секвенатор HeliScopeTM, а лазером освещают поверхность проточной кюветы, выявляя положение каждой матрицы. ПЗС-камеру могут использовать для сопоставления положения матриц на поверхности проточной кюветы. Затем флуоресцентную метку матрицы отщепляют и вымывают. Реакцию секвенирования начинают с введения ДНК-полимеразы и флуоресцентно-меченого нуклеотида. Т-олигонуклеотидная кислота служит в качестве праймера. Полимераза выполняет встраивание меченых нуклеотидов в праймер под управлением матрицы. Полимераза и невстроенные нуклеотиды удаляются. Матрицы, в которые направленно встроен флуоресцентно-меченый нуклеотид, распознают путем визуализации поверхности проточной кюветы. После выполнения визуализации флуоресцентную метку удаляют в рамках стадии расщепления, и процесс повторяют с участием других флуоресцентно-меченых нуклеотидов до момента достижения желаемой длины прочтения. На каждом этапе добавления нуклеотидов собирают информацию о последовательности. Секвенирование целого генома с помощью технологий одномолекулярного секвенирования устраняет необходимость ПЦР-амплификации при подготовке библиотек для секвенирования, также способы позволяют проводить прямое измерение образца вместо измерения копий этого образца. [00251] In one exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using Helicos True Single Molecule Sequencing (tSMS) technology (e.g., described in Harris, TD et al., Science 320:106-109 [2008]). In the tSMS technique, a DNA sample is sheared into strands of about 100 to 200 nucleotides in length and a polyA sequence is added to the 3' end of each DNA strand. Each strand is labeled by the addition of fluorescently labeled adenosine. The DNA strands are then hybridized to a flow cell containing millions of T-nucleotide capture sites immobilized on the surface of the flow cell. In certain embodiments, the arrays may have a density of about 100 million arrays/ cm2 . The flow cell is loaded into an instrument such as a HeliScopeTM sequencer and a laser is shined onto the surface of the flow cell, revealing the position of each template. A CCD camera can be used to map the positions of the templates onto the surface of the flow cell. The fluorescent template label is then cleaved and washed away. The sequencing reaction begins with the introduction of DNA polymerase and a fluorescently labeled nucleotide. The T-oligonucleotide acid serves as a primer. The polymerase incorporates the labeled nucleotides into the primer under the guidance of the template. The polymerase and unincorporated nucleotides are removed. Templates into which a fluorescently labeled nucleotide is specifically incorporated are identified by visualizing the surface of the flow cell. After imaging, the fluorescent label is removed in a digestion step, and the process is repeated with additional fluorescently labeled nucleotides until the desired read length is reached. Sequence information is collected at each nucleotide addition step. Whole-genome sequencing using single-molecule sequencing technologies eliminates the need for PCR amplification to prepare sequencing libraries, and the methods also allow direct measurement of a sample rather than measuring copies of that sample.

[00252] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с помощью секвенирования 454 (Roche) (например, как описано в публикации Margulies, M. et al. Nature 437:376-380 [2005]). Секвенирование 454, как правило, включает в себя две стадии. На первой стадии ДНК подвергают гидродинамическому фрагментированию для разделения ее на фрагменты, имеющие около по 300-800 пар нуклеотидных оснований в каждом и тупые концы. Затем олигонуклеотидные адаптеры лигируют с концами фрагментов. Адаптеры служат в качестве праймеров для выполнения амплификации и секвенирования фрагментов. Фрагменты могут присоединять к микросферам для захвата ДНК, например, микросферам, покрытым стрептавидином, с использованием, например, адаптера B, который содержит 5‘-биотиновую метку. Фрагменты, присоединенные к микросферам, амплифицируют с помощью ПЦР в каплях масляно-водной эмульсии. В результате получают множество копий клонально амплифицированных фрагментов ДНК на каждой микросфере. На втором этапе микросферы захватывают лунками (например, пиколитровыми). Пиросеквенирование каждого фрагмента ДНК проводят параллельным способом. Добавлением одного или более нуклеотидов генерируют световой сигнал, который регистрируют ПЗС-камерой в аппарате для секвенирования. Сила сигнала является пропорциональной числу встроенных нуклеотидов. При выполнении пиросеквенирования используют пирофосфат (PPi), который высвобождается при добавлении нуклеотидов. PPi превращается в АТФ при помощи АТФ-сульфурилазы в присутствии аденозина 5’-фосфосульфата. Люцифераза взаимодействует с АТФ для преобразования люциферина в оксилюциферин, и в результате данной реакции генерируется световое излучение, которое затем измеряется и анализируется. [00252] In another illustrative, non-limiting embodiment, the methods described herein involve obtaining nucleic acid sequence information in a test sample using 454 sequencing (Roche) (e.g., as described in Margulies, M. et al. Nature 437:376-380 [2005]). 454 sequencing typically involves two steps. In the first step, DNA is hydrodynamically sheared to separate it into fragments of about 300-800 base pairs each and blunt-ended. Oligonucleotide adapters are then ligated to the ends of the fragments. The adapters serve as primers to perform amplification and sequencing of the fragments. The fragments can be attached to DNA capture beads, such as streptavidin-coated beads, using, for example, adapter B, which contains a 5'-biotin label. The fragments attached to the beads are amplified by PCR in droplets of an oil-in-water emulsion. This results in multiple copies of the clonally amplified DNA fragments on each bead. In a second step, the beads are captured into wells (e.g., picoliter wells). Pyrosequencing of each DNA fragment is performed in parallel. The addition of one or more nucleotides generates a light signal that is recorded by a CCD camera in the sequencing apparatus. The signal strength is proportional to the number of incorporated nucleotides. Pyrosequencing uses pyrophosphate (PPi), which is released upon addition of nucleotides. PPi is converted to ATP by ATP sulfurylase in the presence of adenosine 5'-phosphosulfate. Luciferase interacts with ATP to convert luciferin to oxyluciferin, a reaction that generates light that is then measured and analyzed.

[00253] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии SOLiD™ (Applied Biosystems). При выполнении секвенирования путем лигирования в соответствии с технологией SOLiD™ геномную ДНК подвергают гидродинамическому фрагментированию для разделения ее на фрагменты, а адаптеры присоединяются к 5’ и 3’ концам фрагментов для генерирования библиотеки фрагментов. В альтернативном варианте реализации внутренние адаптеры могут вводить путем лигирования адаптеров с 5’ и 3’ концами фрагментов, округления фрагментов, расщепления круглого фрагмента для получения внутреннего адаптера и присоединения адаптеров к 5’ и 3’ концам полученных фрагментов для генерирования библиотеки сопряженных пар. Затем выполняется подготовка популяций клональных микросфер в микрореакторах, содержащих микросферы, праймеры, матрица и компоненты ПЦР. После ПЦР матрицы денатурируют и микросферы обогащают для разделения микросфер с удлиненными матрицами. Матрицы на выбранных микросферах подвергают модификации 3’, в результате которой устанавливают связи с предметным стеклом. Определение последовательности выполняют путем последовательной гибридизации и лигирования частично случайных олигонуклеотидов с центральным определенным основанием (или парой оснований), определяемым конкретным флуорофором. После регистрации цвета лигированный олигонуклеотид расщепляют и удаляют, затем процесс повторяют. [00253] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using SOLiD™ technology (Applied Biosystems). In ligation sequencing using SOLiD™ technology, genomic DNA is hydrodynamically sheared to separate it into fragments, and adapters are attached to the 5' and 3' ends of the fragments to generate a library of fragments. In an alternative embodiment, internal adapters can be introduced by ligating adapters to the 5' and 3' ends of the fragments, rounding the fragments, cleaving the circular fragment to generate an internal adapter, and attaching adapters to the 5' and 3' ends of the resulting fragments to generate a mate pair library. Clonal bead populations are then prepared in microreactors containing the beads, primers, template, and PCR components. Following PCR, the templates are denatured and the beads are enriched to separate beads with extended templates. The templates on selected beads are 3' modified to establish bonds with the slide. Sequencing is accomplished by sequential hybridization and ligation of partially random oligonucleotides to a central specific base (or base pair) determined by a specific fluorophore. After color detection, the ligated oligonucleotide is cleaved and removed, and the process is repeated.

[00254] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии секвенирования в реальном времени (SMRT™) компании Pacific Biosciences. При секвенировании SMRT во время синтеза ДНК визуализируют непрерывное встраивание меченых красителем нуклеотидов. Одиночные молекулы ДНК-полимеразы прикрепляют к нижней поверхности отдельных детекторов длины волны с нулевой модой (детекторов ZMW), которые получают информацию о последовательности во время встраивания фосфосвязанных нуклеотидов в растущую праймерную цепь. Детектор ZMW содержит ограничивающую структуру, которая позволяет наблюдать встраивание одного нуклеотида с помощью ДНК-полимеразы на фоне флуоресцентных нуклеотидов, которые быстро диффундируют внутрь и за пределы ZMW (в течение микросекунд). Включение нуклеотида в растущую цепь, как правило, занимает несколько миллисекунд. В течение данного периода времени флуоресцентная метка возбуждается и продуцирует флуоресцентный сигнал, после чего флуоресцентная метка расщепляется. Измерение соответствующей флуоресценции красителя указывает на то, какое основание было встроено. Процесс выполняется повторно для получения последовательности. [00254] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a sample of interest using Pacific Biosciences' sequencing real-time (SMRT™) technology. SMRT sequencing visualizes the continuous incorporation of dye-labeled nucleotides during DNA synthesis. Single DNA polymerase molecules are attached to the bottom surface of individual zero-mode wavelength detectors (ZMW detectors) that obtain sequence information during the incorporation of phospho-linked nucleotides into a growing primer strand. The ZMW detector contains a limiting structure that allows the incorporation of a single nucleotide by DNA polymerase to be observed against a background of fluorescent nucleotides that rapidly diffuse into and out of the ZMW (within microseconds). Incorporation of a nucleotide into a growing strand typically takes several milliseconds. During this time, the fluorescent label is excited and produces a fluorescent signal, after which the fluorescent label is cleaved. Measuring the corresponding fluorescence of the dye indicates which base has been inserted. The process is repeated to obtain the sequence.

[00255] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с помощью секвенирования через нанопоры (например, как описано в публикации Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]). Методики анализа ДНК путем секвенирования через нанопоры разработаны рядом компаний, включая, например, Oxford Nanopore Technologies (г. Оксфорд, Великобритания), Sequenom, NABsys и т. п. Секвенирование через нанопоры представляет собой технологию одномолекулярного секвенирования, при котором одиночную молекулу ДНК секвенируют непосредственно при прохождении через нанопору. Нанопора представляет собой небольшое отверстие диаметром, как правило, порядка 1 нанометра. Погружение нанопоры в электропроводящую текучую среду и подключение к ней источника потенциала (напряжения) приводит к появлению электрического тока небольшой силы вследствие проведения ионов через нанопоры. Сила протекающего тока зависит от размера и формы нанопоры. При прохождении молекулы ДНК через нанопору каждый нуклеотид молекулы ДНК перекрывает нанопору в разной степени, изменяя величину тока, проходящего через нанопору в разной степени. Таким образом, такое изменение тока при прохождении молекулы ДНК через нанопору позволяет получать прочтение последовательности ДНК. [00255] In another illustrative, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a sample of interest using nanopore sequencing (e.g., as described in Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]). Nanopore sequencing techniques for DNA analysis have been developed by a number of companies, including, for example, Oxford Nanopore Technologies (Oxford, UK), Sequenom, NABsys, and the like. Nanopore sequencing is a single-molecule sequencing technology in which a single DNA molecule is sequenced directly as it passes through a nanopore. A nanopore is a small hole, typically on the order of 1 nanometer in diameter. Immersion of a nanopore in a conductive fluid and connection of a potential (voltage) source to it results in the appearance of a small electric current due to the conduction of ions through the nanopores. The strength of the current depends on the size and shape of the nanopore. As a DNA molecule passes through a nanopore, each nucleotide of the DNA molecule blocks the nanopore to a different extent, changing the magnitude of the current passing through the nanopore to a different extent. Thus, such a change in current as a DNA molecule passes through a nanopore allows for the reading of the DNA sequence.

[00256] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием химически чувствительного транзистора с управляемым полем (chemFET) (например, как описано в опубликованной патентной заявке США № 2009/0026082). В одном примере реализации данной методики молекулы ДНК можно помещать в реакционные камеры, а матричные молекулы можно гибридизовать с праймером секвенирования, связанным с полимеразой. Встраивание одного или более трифосфатов в новую нуклеотидную цепочку на 3’ конце праймера секвенирования можно распознать с помощью chemFET по изменению тока. Массив может включать в себя множество датчиков chemFET. В другом примере отдельные нуклеиновые кислоты могут прикреплять к микросферам, также могут выполнять амплифицикацию нуклеиновых кислот на микросфере, и отдельные микросферы могут переносить в отдельные реакционные камеры на массиве chemFET, причем каждая из камер снабжена датчиком chemFET; кроме того, может проводиться секвенирование нуклеиновых кислот. [00256] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a sample under test using a chemically sensitive field-controlled transistor (chemFET) (e.g., as described in U.S. Patent Application Publication No. 2009/0026082). In one embodiment of this technique, DNA molecules can be placed in reaction chambers and template molecules can be hybridized to a sequencing primer linked to a polymerase. The incorporation of one or more triphosphates into a new nucleotide chain at the 3' end of the sequencing primer can be detected by the chemFET as a change in current. The array can include a plurality of chemFET sensors. In another example, individual nucleic acids can be attached to microspheres, nucleic acid amplification can be performed on the microsphere, and the individual microspheres can be transferred to individual reaction chambers on a chemFET array, each of the chambers being equipped with a chemFET sensor; in addition, nucleic acid sequencing can be performed.

[00257] В другом варианте реализации технология секвенирования ДНК представляет собой одномолекулярное секвенирование с применением технологии Ion Torrent, которая объединяет полупроводниковую технологию с химическим анализом обычного способа секвенирования для прямого преобразования химически кодированной информации (A, C, G, T) в цифровую информацию (0, 1) с применением полупроводникового чипа. В природе, при встраивании полимеразой нуклеотида в цепь ДНК, побочный продукт в виде иона водорода высвобождается. В рамках технологии Ion Torrent используют массив микрообработанных лунок высокой плотности для выполнения данного биохимического процесса путем массового параллельного секвенирования. Каждая лунка содержит в себе отдельную молекулу ДНК. Под лунками находится чувствительный к ионам слой, а под ним находится ионный датчик. При добавлении нуклеотида, например C, в матрицу ДНК, и последующем встраивании в цепь ДНК высвобождается ион водорода. Заряд данного иона приведет к изменению pH-значения раствора, что, в свою очередь, регистрируют ионным датчиком Ion Torrent. Секвенатор, представляющий собой мельчайший в мире твердотельный измеритель значения pH, применяют для распознавания основания, конвертируя данные химического анализа в цифровые данные. Затем секвенатор Ion Personal Genome Machine (PGM™) последовательно заполняет чип нуклеотидами одним за другим. В случае несовпадения следующего нуклеотида, заполняющего чип. Изменения напряжения не будут регистрировать, и основания не будет распознавать. В случае, если на цепи ДНК имеются два идентичных основания, напряжение удваивается, и чип регистрирует два идентичных основания. Метод прямого обнаружения позволяет регистрировать включение нуклеотидов в течение нескольких секунд. [00257] In another embodiment, the DNA sequencing technology is single-molecule sequencing using Ion Torrent technology, which combines semiconductor technology with the chemistry of conventional sequencing to directly convert chemically encoded information (A, C, G, T) into digital information (0, 1) using a semiconductor chip. In nature, when a nucleotide is inserted into a DNA strand by a polymerase, a hydrogen ion byproduct is released. Ion Torrent technology uses a high-density array of micromachined wells to perform this biochemical process by massively parallel sequencing. Each well contains an individual DNA molecule. Under the wells is an ion-sensitive layer, and under it is an ion sensor. When a nucleotide, such as C, is added to the DNA template and then inserted into the DNA strand, a hydrogen ion is released. The charge of this ion will change the pH of the solution, which in turn is recorded by the Ion Torrent ion sensor. The sequencer, which is the world's smallest solid-state pH meter, is used to recognize the base, converting chemical analysis data into digital data. The Ion Personal Genome Machine (PGM™) sequencer then sequentially fills the chip with nucleotides one after another. If the next nucleotide filling the chip does not match, the voltage changes will not be recorded, and the bases will not be recognized. If there are two identical bases on the DNA strand, the voltage doubles, and the chip will register two identical bases. The direct detection method allows for the registration of nucleotide incorporation within a few seconds.

[00258] В другом варианте реализации настоящий способ включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием секвенирования путем гибридизации. Секвенирование путем гибридизации содержит приведение множества полинуклеотидных последовательностей в контакт с множеством полинуклеотидных зондов, причем каждый из множества полинуклеотидных зондов может быть необязательно присоединен к субстрату. Субстрат может представлять собой плоскую поверхность, содержащую массив известных нуклеотидных последовательностей. Для определения полинуклеотидных последовательностей, присутствующих в образце, могут использовать паттерн для выполнения гибридизации с массивом. В других вариантах реализации каждый зонд прикрепляют к микросфере, например, к магнитной микросфере и т.п. Гибридизацию микросфер можно использовать для определения множества полинуклеотидных последовательностей в образце. [00258] In another embodiment, the present method includes obtaining nucleic acid sequence information in a test sample using sequencing by hybridization. Sequencing by hybridization comprises contacting a plurality of polynucleotide sequences with a plurality of polynucleotide probes, wherein each of the plurality of polynucleotide probes may optionally be attached to a substrate. The substrate may be a flat surface containing an array of known nucleotide sequences. A pattern may be used to perform hybridization with the array to determine the polynucleotide sequences present in the sample. In other embodiments, each probe is attached to a bead, such as a magnetic bead, etc. Hybridization of the bead may be used to determine the plurality of polynucleotide sequences in the sample.

[00259] В некоторых вариантах реализации способов, описанных в настоящем документе, прочтения последовательностей имеют длину около в 20 п. н. о., около 25 п. н. о., около 30 bp, около 35 bp, около 40 bp, около 45 bp, около 50 п. н. о., около 55 п. н. о., около 60 п. н. о., около 65 п. н. о., около 70 п. н. о., около 75 п. н. о., около 80 п. н. о., около 85 п. н. о., около 90 п. н. о., около 95 п. н. о., около 100 п. н. о., около 110 п. н. о., около 120 п. н. о., около 130, около 140 п. н. о., около 150 п. н. о., около 200 п. н. о., около 250 п. н. о., около 300 п. н. о., около 350 п. н. о., около 400 п. н. о., около 450 п. н. о. или около 500 п. н. о. Ожидается, что при создании парных концевых прочтений технологические достижения обеспечат возможность одиночных концевых прочтений более 500 п. н. о. и прочтений более 1 000 п. н. о. В некоторых вариантах реализации для определения экспансии повторов используют парные концевые прочтения, которые содержат прочтения последовательностей длиной от около 20 п. н. о. до 1 000 п. н. о., от около 50 п. н. о. до 500 п. н. о. или от 80 п. н. о. до 150 п. н. о. В разнообразных вариантах реализации для оценки последовательности, имеющей экспансию повторов, применяют парные концевые прочтения. Последовательность, имеющая экспансию повторов, имеет большую длину, чем прочтения. В некоторых вариантах реализации последовательность, имеющая экспансию повторов, имеет большую длину, чем около 100 п. н. о., 500 п. н. о., 1 000 п. н. о. или 4 000 п. н. о. Сопоставление прочтений последовательностей осуществляется путем сравнения последовательности прочтений с последовательностью эталонного образца для определения хромосомного происхождения секвенированной молекулы нуклеиновой кислоты, и в таком случае специфическая информация о генетической последовательности не требуется. Допускается небольшая степень несоответствия (0-2 несовпадений на каждое прочтение) с учетом незначительных полиморфизмов, которые могут существовать между эталонным геномом и геномами в смешанном образце. В некоторых вариантах реализации прочтения, которые выровнены с эталонной последовательностью, используют в качестве базовых прочтений, а те прочтения, которые являются спаренными с базовыми прочтениями, но при этом не могут быть выровнены или являются плохо выровненными с эталонной последовательностью, используется в качестве закрепленных прочтений. В некоторых вариантах реализации плохо выровненные прочтения могут иметь относительно большое число несовпадений на каждое прочтение, например, по меньшей мере около 5%, 10%, 15% или 20% несовпадений на каждое прочтение. [00259] In some embodiments of the methods described herein, the sequence reads are about 20 bp, about 25 bp, about 30 bp, about 35 bp, about 40 bp, about 45 bp, about 50 bp, about 55 bp, about 60 bp, about 65 bp, about 70 bp, about 75 bp, about 80 bp, about 85 bp, about 90 bp, about 95 bp, about 100 bp, about 110 bp, about 120 bp, o., about 130, about 140 bp, about 150 bp, about 200 bp, about 250 bp, about 300 bp, about 350 bp, about 400 bp, about 450 bp, or about 500 bp. It is expected that technological advances in the generation of paired-end reads will enable single end reads greater than 500 bp and reads greater than 1,000 bp. In some embodiments, paired-end reads that contain sequence reads of lengths from about 20 bp to 1,000 bp, from about 50 bp to 1,000 bp, are used to detect repeat expansions. up to 500 bp or from 80 bp to 150 bp. In various embodiments, paired end reads are used to evaluate a sequence having a repeat expansion. The sequence having a repeat expansion is longer than the reads. In some embodiments, the sequence having a repeat expansion is longer than about 100 bp, 500 bp, 1,000 bp, or 4,000 bp. Alignment of the sequence reads is accomplished by comparing the sequence of the reads to the sequence of a reference sample to determine the chromosomal origin of the sequenced nucleic acid molecule, and in such a case, specific genetic sequence information is not required. A small degree of mismatch (0-2 mismatches per read) is allowed to account for minor polymorphisms that may exist between the reference genome and the genomes in the mixed sample. In some embodiments, reads that are aligned to the reference sequence are used as base reads, and those reads that are paired with base reads but cannot be aligned or are poorly aligned to the reference sequence are used as anchor reads. In some embodiments, poorly aligned reads may have a relatively large number of mismatches per read, such as at least about 5%, 10%, 15%, or 20% mismatches per read.

[00260] Как правило, для каждого образца получают множество меток последовательности (т. е. Прочтений, выравненных с эталонной последовательностью). В некоторых вариантах реализации по меньшей мере около 3×106 меток последовательности, по меньшей мере около 5×106 меток последовательности, по меньшей мере около 8×106 меток последовательности, по меньшей мере около 10×106 меток последовательности, по меньшей мере около 15×106 меток последовательности, по меньшей мере около 20×106 меток последовательности, по меньшей мере около 30×106 меток последовательности, по меньшей мере около 40×106 меток последовательности или по меньшей мере около 50×106 меток последовательности, включающих, например, 100 п. н. о. Получают путем сопоставления прочтений с эталонным геномом относительно каждого образца. В некоторых вариантах реализации все прочтения последовательностей сопоставлены со всеми областями эталонного генома, обеспечивая возможность выполнения прочтений по всему геному. В других вариантах реализации прочтения сопоставляют с исследуемой последовательностью, например, хромосомой, сегментом хромосомы или исследуемой последовательностью повторов. [00260] Typically, a plurality of sequence tags (i.e., reads aligned to a reference sequence) are obtained for each sample. In some embodiments, at least about 3×10 6 sequence tags, at least about 5×10 6 sequence tags, at least about 8×10 6 sequence tags, at least about 10×10 6 sequence tags, at least about 15×10 6 sequence tags, at least about 20×10 6 sequence tags, at least about 30×10 6 sequence tags, at least about 40×10 6 sequence tags, or at least about 50×10 6 sequence tags, comprising, for example, 100 bp, are obtained by aligning reads to a reference genome relative to each sample. In some embodiments, all sequence reads are mapped to all regions of a reference genome, allowing reads to be performed across the entire genome. In other embodiments, reads are mapped to a sequence of interest, such as a chromosome, a segment of a chromosome, or a repeat sequence of interest.

5.13. Устройство и системы для определения экспансии повторов5.13. Device and systems for determining repeat expansion

[00261] Анализ данных секвенирования и диагностики, полученных из них, как правило, выполняют с использованием различных компьютерных алгоритмов и программ. Таким образом, в некоторых вариантах реализации применяют процессы, включающие в себя использование данных, хранящихся или передаваемых посредством одной или более компьютерных систем или иных систем обработки. Варианты реализации, описанные в настоящем документе, также относятся к устройству, использующемуся для выполнения данных операций. Данное устройство может быть специально сконструировано для достижения требуемых целей, также таким устройством может быть компьютер общего назначения (или группа компьютеров), специально настраиваемый компьютерной программой и/или структурой данных, хранящейся в компьютере. В некоторых вариантах реализации группа процессоров отвечает за выполнение некоторых или всех указанных аналитических операций в совместном (например посредством сетевых или облачных вычислений) и/или параллельном порядке. Процессор или группа процессоров, использующиеся для реализации способов, описанных в настоящем документе, могут быть различных типов, включая микроконтроллеры и микропроцессоры, такие как программируемые устройства (например, СПЛИС и ППВМ), и непрограммируемые устройства, такие как специализированные ИС вентильной матрицы или микропроцессоры общего назначения. [00261] The analysis of sequencing data and diagnostics obtained therefrom are typically performed using various computer algorithms and programs. Thus, in some embodiments, processes are used that include the use of data stored or transmitted by one or more computer systems or other processing systems. The embodiments described herein also relate to a device used to perform these operations. This device may be specially designed to achieve the desired goals, but such a device may also be a general-purpose computer (or a group of computers) specially configured by a computer program and / or a data structure stored in the computer. In some embodiments, a group of processors is responsible for performing some or all of these analytical operations in a joint (e.g., via network or cloud computing) and / or parallel manner. The processor or group of processors used to implement the methods described herein may be of various types, including microcontrollers and microprocessors, such as programmable devices (e.g., FPGAs and FPGAs), and non-programmable devices, such as specialized gate array ICs or general-purpose microprocessors.

[00262] В одном варианте реализации предлагается система определения генотипов вариантов в геномных локусах, включая последовательности повторов, также система включает в себя секвенатор для приема образцов нуклеиновой кислоты и предоставления информации о нуклеотидной последовательности таких образцов; процессор; и машиночитаемый носитель данных, содержащий инструкции, исполняемые на указанном процессоре и применяемые для генотипирования вариантов с применением следующих методов: (a) сбор прочтений последовательностей нуклеиновых кислот исследуемого образца из базы данных;(b) выравнивание прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одного или более генотипов одной или более последовательностей повторов с использованием прочтений последовательности, выровненных с одной или более последовательностями повторов. [00262] In one embodiment, a system is provided for determining genotypes of variants at genomic loci, including repeat sequences, the system comprising a sequencer for receiving nucleic acid samples and providing nucleotide sequence information of such samples; a processor; and a machine-readable storage medium containing instructions executable on the processor and used to genotype variants using the following methods: (a) collecting nucleic acid sequence reads of a test sample from a database; (b) aligning the sequence reads with one or more repeat sequences, each of which is represented in a sequence graph, wherein the sequence graph has a directed graph data structure, wherein the nodes represent nucleotide sequences and directed edges connect the nodes, and wherein the sequence graph comprises one or more proper simple cycles, wherein each proper simple cycle represents a subsequence of repeats, wherein each subsequence of repeats comprises repeats of a repeating unit of one or more nucleotides; and (c) determining one or more genotypes of one or more repeat sequences using sequence reads aligned to the one or more repeat sequences.

[00263] В некоторых вариантах реализации любой из систем, предложенных в настоящем документе, секвенатор настраивают для выполнения секвенирования следующего поколения (NGS). В некоторых вариантах реализации секвенатор настраивается для выполнения массового параллельного секвенирования с применением секвенирования путем синтеза с использованием терминаторов обратимых красителей. В других вариантах реализации секвенатор настраивается для выполнения секвенирования путем лигирования. В других вариантах реализации секвенатор настраивается для выполнения одномолекулярного секвенирования. [00263] In some embodiments of any of the systems provided herein, the sequencer is configured to perform next generation sequencing (NGS). In some embodiments, the sequencer is configured to perform massively parallel sequencing using sequencing by synthesis using reverse dye terminators. In other embodiments, the sequencer is configured to perform sequencing by ligation. In other embodiments, the sequencer is configured to perform single-molecule sequencing.

[00264] Кроме того, определенные варианты реализации относятся к материальным носителям и/или машиночитаемым носителям, предназначенным для долговременного хранения информации, или компьютерным программным продуктам, которые включают в себя программные команды и/или данные (включая структуры данных) для выполнения различных операций с помощью компьютера. Примеры машиночитаемых носителей включают в себя, без ограничений, полупроводниковые запоминающие устройства, магнитные носители, такие как дисковые накопители, магнитная лента, оптические носители, такие как диски, магнитооптические носители и аппаратные устройства, специально предусмотренные для хранения и выполнения программных команд, такие как постоянные запоминающие устройства (ПЗУ) и оперативные запоминающие устройства (ОЗУ). Машиночитаемые носители могут непосредственно или опосредованно управляться конечным пользователем. Примеры носителей с непосредственным управлением включают в себя носители, расположенные на объекте пользователя, и/или носители, данные с которых не являются общедоступными. Примеры носителей с опосредованным управлением включают в себя носители, опосредованно доступные пользователю через внешнюю сеть и/или сервис общего пользования, например, «облачный сервис». Примеры программных команд включают в себя как машинный код, в том числе создаваемый компилятором, так и файлы, содержащие код более высокого уровня, который может выполняться компьютером с использованием интерпретатора. [00264] Additionally, certain embodiments relate to tangible media and/or computer-readable media intended for long-term storage of information, or computer program products that include program instructions and/or data (including data structures) for performing various operations using a computer. Examples of computer-readable media include, but are not limited to, semiconductor memory devices, magnetic media such as disk drives, magnetic tape, optical media such as disks, magneto-optical media, and hardware devices specially provided for storing and executing program instructions, such as read-only memories (ROM) and random access memories (RAM). Computer-readable media may be directly or indirectly controlled by an end user. Examples of directly controlled media include media located at the user's facility and/or media from which data is not publicly available. Examples of indirectly controlled media include media indirectly accessible to a user through an external network and/or a public service, such as a "cloud service." Examples of software instructions include both machine code, including that produced by a compiler, and files containing higher-level code that can be executed by a computer using an interpreter.

[00265] В разнообразных вариантах реализации данные, используемые в рамках описанных способов, а также используемые в устройстве, представлены в электронном формате. Такие данные могут включать в себя прочтения и метки, полученные из образца нуклеиновой кислоты, эталонные последовательности (включая эталонные последовательности, исключительно или преимущественно приводящие к образованию полиморфизмов), распознавания, такие как распознавания экспансии повторов, рекомендации, противопоказания, диагнозы и т.п. В соответствии с содержанием настоящего документа, данные в электронном формате могут хранить в устройстве и передавать между устройствами. Обычно данные в электронном формате предоставляют в цифровом виде и могут хранить в виде набора битов и/или байтов в различных структурах данных, списках, базах данных и т.д. Данные могут быть реализованы в электронном, оптическом и ином виде. [00265] In various embodiments, the data used in the described methods, as well as used in the device, are in an electronic format. Such data may include reads and tags obtained from a nucleic acid sample, reference sequences (including reference sequences that exclusively or predominantly result in the formation of polymorphisms), recognitions such as repeat expansion recognitions, recommendations, contraindications, diagnoses, etc. In accordance with the content of this document, the data in electronic format can be stored in the device and transmitted between devices. Typically, the data in electronic format is provided in digital form and can be stored as a set of bits and/or bytes in various data structures, lists, databases, etc. The data can be implemented in electronic, optical, or other forms.

[00266] В одном варианте реализации предлагается компьютерный программный продукт для генерации выходных данных, указывающих на наличие или отсутствие экспансии повторов в исследуемом образце. Компьютерный продукт может содержать в себе инструкции по реализации любого одного или более из описанных выше способов определения экспансии повторов. Как объяснялось выше, компьютерный продукт может включать в себя материальный машиночитаемый носитель и/или носитель, предназначенный для долговременного хранения информации, содержащий записанный исполняемый или компилируемый программный код (например, инструкции), позволяющий процессору выполнять определение закрепленных прочтений и повторов в закрепленных прочтениях, а также наличие или отсутствие экспансии повторов. В одном примере компьютерный продукт содержит машиночитаемый носитель, содержащий записанный исполняемый или компилируемый программный код (например, инструкции), позволяющий процессору выполнять определение экспансии повторов и содержащий: процедуру получения данных секвенирования от по меньшей мере части молекул нуклеиновой кислоты, подвергнутых выравниванию с последовательностью повторов; машинный алгоритм для выполнения анализа экспансии повторов на основе указанных получаемых данных; и процедуру генерации выходных данных, указывающих на наличие, отсутствие и тип указанной экспансии повторов. [00266] In one embodiment, a computer program product is provided for generating output data indicating the presence or absence of a repeat expansion in a test sample. The computer product may comprise instructions for implementing any one or more of the above-described methods for determining a repeat expansion. As explained above, the computer product may include a tangible computer-readable medium and/or a medium intended for long-term storage of information, containing recorded executable or compiled program code (e.g., instructions) that enables a processor to perform the determination of pinned reads and repeats in the pinned reads, as well as the presence or absence of a repeat expansion. In one example, the computer product comprises a computer-readable medium containing recorded executable or compiled program code (e.g., instructions) that enables a processor to perform the determination of a repeat expansion, and comprising: a procedure for obtaining sequencing data from at least a portion of nucleic acid molecules aligned with a repeat sequence; a machine algorithm for performing repeat expansion analysis based on said received data; and a procedure for generating output data indicating the presence, absence and type of said repeat expansion.

[00267] Информация о последовательности в рассматриваемом образце может быть сопоставлена с эталонными хромосомными последовательностями для определения парных концевых прочтений, выровненных с исследуемой последовательностью повторов или закрепленных на ней, а также для определения экспансии повторов последовательности повторов. В разнообразных вариантах реализации эталонные последовательности хранят в базе данных, такой как реляционная или объектно-ориентированная база данных. [00267] Sequence information in a sample of interest may be compared to reference chromosomal sequences to determine paired end reads aligned with or anchored to a repeat sequence of interest and to determine the repeat expansion of the repeat sequence. In various embodiments, the reference sequences are stored in a database, such as a relational or object-oriented database.

[00268] Следует понимать, что в большинстве случаев выполнение вычислительных операций в рамках способов, описанных в настоящем документе, без посторонней помощи является непрактичным или даже невозможным. Например, для сопоставления одного прочтения из образца длиной в 30 п. н. о. с любой из хромосом человека может потребоваться несколько лет в случае, если не используется вычислительное устройство. Конечно, проблема усугубляется тем, что качественное распознавание экспансии повторов требует сопоставления тысяч (например, по меньшей мере около 10 000) или даже миллионов прочтений с одной хромосомой или более. [00268] It should be understood that in most cases, it is impractical or even impossible to perform the computational operations within the methods described herein without assistance. For example, mapping a single read from a 30 bp sample to any of the human chromosomes can take several years if a computing device is not used. Of course, the problem is compounded by the fact that good repeat expansion recognition requires mapping thousands (e.g., at least about 10,000) or even millions of reads to a single chromosome or more.

[00269] В разнообразных вариантах реализации необработанные прочтения последовательностей выравнивают с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В разнообразных вариантах реализации по меньшей мере 10 000, 100 000, 500 000, 1 000 000, 5 000 000 или 10 000 000 прочтений выровнены с одним или более графами последовательностей. В разнообразных вариантах реализации один или более графов последовательностей включают в себя по меньшей мере 1, 2, 5, 10, 50, 100, 500, 1 000, 5 000, 10 000 или 50 000 графов последовательностей. [00269] In various embodiments, raw sequence reads are aligned to one or more sequence graphs representing one or more sequences of interest. In various embodiments, at least 10,000, 100,000, 500,000, 1,000,000, 5,000,000, or 10,000,000 reads are aligned to the one or more sequence graphs. In various embodiments, the one or more sequence graphs include at least 1, 2, 5, 10, 50, 100, 500, 1,000, 5,000, 10,000, or 50,000 sequence graphs.

[00270] В некоторых вариантах реализации необработанные прочтения последовательностей изначально выравнивают с эталонным геномом для определения геномных координат прочтений до того, как подмножество первоначально выровненных прочтений будет выровнено с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В разнообразных вариантах реализации по меньшей мере 10 000, 100 000, 500 000, 1 000 000, 5 000 000, 10 000 000 или 100 000 000 прочтений являются изначально выровненными с эталонным геномом. В некоторых вариантах реализации первоначально выровненные прочтения повторно выравнивают с графами последовательностей для определения экспансий повторов во множестве областей (каждая область соответствует графу последовательности). Общее число прочтений, которые повторно выравнивают с графами последовательностей во время каждого применения вариантов реализации, может находиться в диапазоне от тысяч до множества миллионов прочтений. В разнообразных вариантах реализации 10 000 000 прочтений повторно выравнивают с каждым графом последовательности. В разнообразных вариантах реализации один или более графов последовательностей включают в себя по меньшей мере 1, 2, 5, 10, 50, 100, 500, 1 000, 5 000, 10 000 или 50 000 графов последовательностей. [00270] In some embodiments, raw sequence reads are initially aligned to a reference genome to determine genomic coordinates of the reads before a subset of the initially aligned reads are aligned to one or more sequence graphs representing one or more sequences of interest. In various embodiments, at least 10,000, 100,000, 500,000, 1,000,000, 5,000,000, 10,000,000, or 100,000,000 reads are initially aligned to the reference genome. In some embodiments, the initially aligned reads are re-aligned to the sequence graphs to determine repeat expansions across multiple regions (each region corresponding to a sequence graph). The total number of reads that are re-aligned to the sequence graphs during each application of embodiments may range from thousands to many millions of reads. In various embodiments, 10,000,000 reads are re-aligned to each sequence graph. In various embodiments, the one or more sequence graphs include at least 1, 2, 5, 10, 50, 100, 500, 1,000, 5,000, 10,000, or 50,000 sequence graphs.

[00271] Способы, описанные в настоящем документе, могут реализовываться с применением системы для определения генотипов вариантов в геномном локусе, включающем в себя последовательность повторов. Система может включать в себя: (a) секвенатор для приема нуклеиновых кислот из исследуемого образца, предоставляющий информацию о нуклеотидной последовательности образца; (b) процессор; и (c) один или более машиночитаемых носителей данных, содержащий инструкции, исполняемые на указанном процессоре и применяемые для генотипирования вариантов в геномных локусах, включая последовательности повторов. В некоторых вариантах реализации инструкции по реализации способов могут получать с машиночитаемого носителя, на котором хранят машиночитаемые инструкции по выполнению определения экспансий повторов. Таким образом, в одном варианте реализации предлагается компьютерный программный продукт, содержащий машиночитаемый носитель, предназначенный для долговременного хранения информации, на котором хранится программный код, который при исполнении одним или более процессорами компьютерной системы приводит к реализации метода определенияикации экспансии повторов последовательности повторов в исследуемом образце, включающем нуклеиновые кислоты, где последовательность повторов включает повторы повторяющегося звена нуклеотидов. Программный код может включать в себя: (a) код для сбора прочтений последовательности исследуемого образца из базы данных; (b) код для выравнивания прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) код для определения одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выровненных с одной или более последовательностями повторов. [00271] The methods described herein can be implemented using a system for determining genotypes of variants at a genomic locus that includes a repeat sequence. The system can include: (a) a sequencer for receiving nucleic acids from a test sample that provides information about the nucleotide sequence of the sample; (b) a processor; and (c) one or more computer-readable storage media containing instructions executable on the processor and used to genotype variants at genomic loci, including repeat sequences. In some embodiments, instructions for implementing the methods can be obtained from a computer-readable medium that stores computer-readable instructions for performing the determination of repeat expansions. Thus, in one embodiment, a computer program product is proposed, comprising a machine-readable medium intended for long-term storage of information, on which a program code is stored, which, when executed by one or more processors of a computer system, results in the implementation of a method for determining and expanding repeats of a repeat sequence in a test sample comprising nucleic acids, wherein the repeat sequence comprises repeats of a repeating unit of nucleotides. The program code may include: (a) code for collecting sequence reads of the test sample from a database; (b) code for aligning the sequence reads with one or more repeat sequences, each of which is represented in a sequence graph, wherein the sequence graph has a data structure of a directed graph, wherein the nodes represent nucleotide sequences and directed edges connecting the nodes, and wherein the sequence graph contains one or more proper simple cycles, wherein each proper simple cycle represents a subsequence of repeats, wherein each subsequence of repeats comprises repeats of a repeating unit of one or more nucleotides; and (c) code for determining one or more genotypes of one or more repeat sequences using sequence reads aligned to the one or more repeat sequences.

[00272] В некоторых вариантах реализации инструкции могут дополнительно включать в себя автоматическую регистрацию информации, относящейся к способу, например относящемуся к повторам и закрепленным прочтениям, а также к наличию или отсутствию указаний на наличие экспансии повторов в медицинской документации субъекта-человека, у которого отбирают исследуемый образец. Медицинскую документацию пациента могут вести и хранить, например, в лаборатории, кабинете врача, больнице, учреждении здравоохранения, страховой компании, либо метод использования личной медицинской карты может дополнительно включать в себя назначение, начало и/или изменение лечения пациента, у которого отбирается исследуемый образец. Данный процесс может включать в себя выполнение одного или более дополнительных тестов или анализов дополнительных образцов, отобранных у субъекта. [00272] In some embodiments, the instructions may further include automatically recording information related to the method, such as repeats and fixed reads, as well as the presence or absence of indications of the presence of repeat expansions in the medical records of the human subject from whom the test sample is collected. The patient's medical records may be maintained and stored, for example, in a laboratory, a physician's office, a hospital, a healthcare facility, an insurance company, or the method of using a personal medical record may further include prescribing, initiating, and/or changing treatment for the patient from whom the test sample is collected. This process may include performing one or more additional tests or analyses on additional samples collected from the subject.

[00273] Описанные способы также могут выполнять с применением компьютерной системы обработки, специально адаптированной для выполнения определения экспансий повторов. В одном варианте реализации предлагается реализация компьютерной системы обработки, специально настроенной для осуществления последовательности действий в рамках способа, описанного в настоящем документе. В одном варианте реализации аппарат включает в себя устройство для секвенирования, специально настроенное с возможностью секвенирования по меньшей мере части молекул нуклеиновой кислоты в образце для получения информации о типе последовательности, описанной в других разделах настоящего документа. Аппарат может также включать в себя компоненты для обработки образца. Такие компоненты описаны в других разделах настоящего документа. [00273] The described methods can also be performed using a computer processing system specially adapted to perform the determination of repeat expansions. In one embodiment, an implementation of a computer processing system specially configured to perform a sequence of actions within the method described herein is provided. In one embodiment, the apparatus includes a sequencing device specially configured to sequence at least a portion of the nucleic acid molecules in a sample to obtain sequence type information described elsewhere herein. The apparatus can also include components for processing the sample. Such components are described elsewhere herein.

[00274] Последовательность или другие данные могут вводить в компьютер или сохранять на машиночитаемом носителе в прямой или косвенной манере. В одном варианте реализации компьютерная система непосредственно связана с устройством для секвенирования, которое выполняет считывание и/или анализ последовательностей нуклеиновых кислот, полученных из образцов. Получение последовательностей или других данных с применением таких устройств выполняется путем взаимодействия с интерфейсом компьютерной системы. В альтернативном варианте реализации последовательности, обрабатываемые системой, получают из места хранения последовательностей, такого как база данных или другое хранилище. После получения доступа к устройству обработки запоминающее устройство или запоминающее устройство большой емкости используется для буферизации или хранения (в т. ч. временного) последовательностей нуклеиновых кислот. Кроме того, в запоминающем устройстве может храниться число меток для различных хромосом или геномов и т. п. В запоминающем устройстве также могут храниться различные подпрограммы и/или программы для анализа представления последовательности или сопоставленных данных. Такие программы/подпрограммы могут включать в себя программы для выполнения статистического анализа и т. д. [00274] The sequence or other data may be input into the computer or stored on a computer-readable medium in a direct or indirect manner. In one embodiment, the computer system is directly connected to a sequencing device that reads and/or analyzes nucleic acid sequences obtained from samples. Obtaining sequences or other data using such devices is performed by interacting with an interface of the computer system. In an alternative embodiment, the sequences processed by the system are obtained from a sequence storage location, such as a database or other storage. After accessing the processing device, a storage device or mass storage device is used to buffer or store (including temporarily) the nucleic acid sequences. In addition, the storage device may store the number of tags for different chromosomes or genomes, etc. The storage device may also store various routines and/or programs for analyzing the sequence representation or associated data. Such programs/routines may include programs for performing statistical analysis, etc.

[00275] В одном примере пользователь помещает образец в аппарат для секвенирования. Сбор и/или анализ данных осуществляется с помощью аппарата для секвенирования, соединенного с компьютером. Программное обеспечение, установленное на компьютере, позволяет собирать и/или анализировать данные. Данные могут хранить, отображать (с помощью монитора или иного аналогичного устройства) и/или отправлять в другие места. Компьютер может быть соединен с сетью Интернет, используемой для передачи данных на мобильное устройство, используемое удаленным пользователем (например, врачом, ученым или лаборантом). Следует понимать, что данные могут хранить и/или анализировать перед осуществлением такой передачи. В некоторых вариантах реализации необработанные данные собирают и удаленно отправляют пользователю или на устройство анализа и/или хранения данных. Передачу данных могут выполнять посредством их хранения на машиночитаемом носителе, причем такой носитель может быть отправлен конечному пользователю (например, по почте). Удаленный пользователь может находиться в том же или ином географическом местоположении, включая, без ограничений, здание, город, штат, страну или континент. [00275] In one example, a user places a sample in a sequencing machine. Data collection and/or analysis is performed using a sequencing machine connected to a computer. Software installed on the computer allows data collection and/or analysis. Data may be stored, displayed (using a monitor or other similar device), and/or sent to other locations. The computer may be connected to an Internet network used to transmit data to a mobile device used by a remote user (e.g., a physician, scientist, or laboratory technician). It should be understood that the data may be stored and/or analyzed before such transmission. In some embodiments, raw data is collected and remotely sent to the user or to a data analysis and/or storage device. Data transmission may be accomplished by storing the data on a machine-readable medium, wherein such medium may be sent to the end user (e.g., by mail). The remote user may be located in the same or a different geographic location, including, without limitation, a building, city, state, country, or continent.

[00276] В некоторых вариантах реализации в рамках реализации способов также выполняют сбор данных множества полинуклеотидных последовательностей (например, прочтений, меток и/или эталонных хромосомных последовательностей) и отправку данных на компьютер или в другую вычислительную систему. Например, компьютер может быть подключен к лабораторному оборудованию, например, аппарату для сбора образцов, аппарату для амплификации нуклеотидов, аппарату для секвенирования нуклеотидов или аппарату для гибридизации. Затем компьютер может осуществлять сбор соответствующих данных, собранных с применением лабораторного оборудования. Данные могут хранить на компьютере на любом этапе, например, во время их сбора в режиме реального времени, перед их отправкой, во время отправки или после нее. Данные могут хранить на машиночитаемом носителе, который также может быть извлечен из компьютера. Собранные или сохраненные данные могут передавать с компьютера в удаленное местоположение, например через локальную сеть или глобальную сеть, такую как сеть Интернет. В удаленном местоположении с передаваемыми данными могут выполнять различные операции, как описано ниже. [00276] In some embodiments, the methods also collect data from a plurality of polynucleotide sequences (e.g., reads, tags, and/or reference chromosomal sequences) and send the data to a computer or other computing system. For example, the computer can be connected to laboratory equipment, such as a sample collection apparatus, a nucleotide amplification apparatus, a nucleotide sequencing apparatus, or a hybridization apparatus. The computer can then collect the corresponding data collected using the laboratory equipment. The data can be stored on the computer at any stage, such as during their collection in real time, before they are sent, during the sending, or after. The data can be stored on a computer-readable medium that can also be removed from the computer. The collected or stored data can be transmitted from the computer to a remote location, such as via a local area network or a wide area network such as the Internet. At the remote location, various operations can be performed on the transmitted data, as described below.

[00277] Ниже описаны типы данных, отформатированных с применением электронных устройств, которые можно хранить, передавать, анализировать и/или обрабатывать в системах, устройстве и в рамках реализации способов, описанных в настоящем документе. [00277] The following describes the types of electronically formatted data that can be stored, transmitted, analyzed, and/or processed in the systems, device, and methods described herein.

Прочтения, полученные путем секвенирования нуклеиновых кислот в исследуемом образцеReads obtained by sequencing nucleic acids in a test sample

Метки, полученные путем выравнивания прочтений с эталонным геномом или другой эталонной последовательностью или последовательностямиTags obtained by aligning reads to a reference genome or other reference sequence or sequences

Эталонный геном или последовательностьReference genome or sequence

Спецификация локуса, где указывается тип локуса, его местоположение и структура Охват прочтенийLocus specification, which specifies the locus type, its location and structure Read coverage

Генотип вариантов Граф последовательности Пути графаGenotype of variants Sequence graph Paths of graph

Информация о выравнивании графаGraph alignment information

Фактические распознавания экспансии повторовActual recognition of repeat expansion

Диагнозы (клиническое состояние, связанное с соответствующими распознаваниями)Diagnoses (clinical condition associated with corresponding recognitions)

Рекомендации по выполнению дополнительных тестов, полученные на основе распознаваний и/или диагностикиRecommendations for additional testing based on recognitions and/or diagnostics

Планы лечения и/или мониторинга, полученные на основе распознаваний и/или диагностикиTreatment and/or monitoring plans derived from recognition and/or diagnosis

[00278] Данные типы данных могут получать, сохранять, анализировать и/или обрабатывать в одном или более местах с помощью специализированных устройств. Насчитывается множество вариантов их обработки. В одном случае, вся или большую часть данной информации сохраняют и используют в месте обработки исследуемого образца, например, в кабинете врача или в иных клинических условиях. В ином случае, образец получают в одном местоположении, его обрабатывают и необязательно секвенируют в другом местоположении, прочтения выравнивают и выполняют распознавание в одном или более других местоположениях и подготавливают диагнозы, рекомендации и/или планы в еще одном местоположении (которое может представлять собой место отбора образца). [00278] These types of data may be acquired, stored, analyzed, and/or processed at one or more locations using specialized devices. There are many ways in which they may be processed. In one case, all or most of this information is stored and used at the location where the sample being tested is processed, such as in a physician's office or other clinical setting. In another case, the sample is acquired at one location, processed and optionally sequenced at another location, the reads are aligned and recognized at one or more other locations, and diagnoses, recommendations, and/or plans are prepared at yet another location (which may be the location where the sample was collected).

[00279] В разнообразных вариантах реализации прочтения генерируются с помощью аппарата для секвенирования, а затем передают на удаленный сайт, где обрабатывают для распознавания наличия экспансии повторов. Например, в данном удаленном местоположении прочтения выровнены с эталонной последовательностью для создания базовых и закрепленных прочтений. К операциям обработки, которые могут применять в различных местах, относятся следующие: [00279] In various embodiments, reads are generated by a sequencing machine and then transmitted to a remote site where they are processed to recognize the presence of a repeat expansion. For example, at this remote location, the reads are aligned to a reference sequence to create base and anchor reads. Processing operations that may be applied at various locations include the following:

Сбор образцовSample collection

Обработка образцов перед секвенированием СеквенированиеSample processing prior to sequencing Sequencing

Анализ данных последовательности и распознавание наличия экспансии повторовSequence data analysis and recognition of the presence of repeat expansions

ДиагностикаDiagnostics

Передача информации о диагнозе и/или результате распознавания пациенту или медицинскому работнику разработка плана дальнейшего лечения, тестирования и/или мониторинга Реализация планаCommunicating the diagnosis and/or detection result to the patient or health care professional Developing a plan for further treatment, testing and/or monitoring Implementing the plan

КонсультированиеConsulting

[00280] Данные операции могут быть автоматизированы в соответствии с содержанием других разделов настоящего документа. Как правило, секвенирование, анализ данных последовательности и распознавание наличия экспансии повторов выполняются путем вычислений. Другие операции могут выполняться вручную или автоматически. [00280] These operations may be automated in accordance with the content of other sections of this document. Typically, sequencing, analysis of sequence data, and recognition of the presence of repeat expansion are performed by computation. Other operations may be performed manually or automatically.

[00281] На Фиг. 6 проиллюстрирована одна реализация дисперсной системы для выполнения распознавания или диагностики на основании исследуемого образца. Место сбора образцов 01 используют для получения исследуемого образца у пациента. Затем образцы передают в место обработки и секвенирования 03, где исследуемые образцы обрабатывают и секвенируют, как описано выше. В местоположении 03 находится устройство для обработки образца, а также устройство для секвенирования обработанного образца. Результатом секвенирования, как описано в других разделах настоящего документа, является набор прочтений, которые, как правило, представлены в электронном формате и передают в сеть, такую как сеть Интернет; такой набор обозначен ссылочным номером 05 на Фиг. 6. [00281] Fig. 6 illustrates one implementation of a dispersed system for performing recognition or diagnosis based on a test sample. A sample collection site 01 is used to obtain a test sample from a patient. The samples are then transferred to a processing and sequencing site 03, where the test samples are processed and sequenced as described above. At site 03 is a device for processing the sample, as well as a device for sequencing the processed sample. The result of the sequencing, as described elsewhere herein, is a set of reads that are typically in an electronic format and transmitted to a network such as the Internet; such a set is designated by the reference numeral 05 in Fig. 6.

[00282] Данные последовательности передают в удаленное местоположение 07, в котором выполняют анализ и распознавание. В данном месте может находиться одно или более мощных вычислительных устройств, например, компьютеры или процессоры. После завершения анализа и выполнения распознавания на основе полученной информации о последовательности в местоположении 07, результаты данного распознавания возвращают в сеть 05. В некоторых вариантах реализации в местоположении 07 также генерируют не только результаты распознавания, но и информация о диагнозе. Затем результаты распознавания и/или диагностики передают по сети и возвращают в место сбора образцов 01, как изображено на Фиг. 6. Как объясняется выше, это лишь один из множества вариантов того, как различные операции, связанные с созданием результатов распознаваний или диагностики, могут разделяться между различными местоположениями. Один распространенный вариант реализации подразумевает выполнение сбора, обработки и секвенирования образцов в одном месте. Другой вариант включает в себя выполнение обработки и секвенирования в том же местоположении, где был выполнен анализ и создание результатов распознавания. [00282] The sequence data is transmitted to a remote location 07 where the analysis and recognition are performed. This location may contain one or more powerful computing devices, such as computers or processors. After the analysis is completed and the recognition is performed based on the received sequence information at location 07, the results of this recognition are returned to the network 05. In some embodiments, in addition to the recognition results, diagnostic information is also generated at location 07. The recognition and/or diagnostic results are then transmitted over the network and returned to the sample collection location 01, as shown in Fig. 6. As explained above, this is only one of many embodiments of how the various operations associated with the creation of recognition or diagnostic results can be divided between different locations. One common embodiment involves performing the collection, processing, and sequencing of the samples at one location. Another embodiment includes performing the processing and sequencing at the same location where the analysis was performed and the recognition results were created.

ЭКСПЕРИМЕНТАЛЬНЫЕEXPERIMENTAL

ПримерыExamples

[00283] Программа была применена к смоделированному набору данных, содержащему широкий диапазон размеров повторов CAG и CCG в локусе HTT. HTT или хантингтин представляет собой ген заболевания, связанный с болезнью Хантингтона (БХ), нейродегенеративным расстройством, характеризующимся потерей нейронов полосатого тела. Считается, что это вызвано увеличенным нестабильным тринуклеотидным повтором в гене под названием хантингтин, который транслируется как полиглутаминовый повтор в продуцируемом белке. В нормальных контрольных образцах был определеницирован достаточно широкий диапазон тринуклеотидных повторов (9-35), а количества повторов, превышающие 40, были названы патологическими. [00283] The program was applied to a simulated dataset containing a wide range of CAG and CCG repeat sizes in the HTT locus. HTT or huntingtin is a disease gene associated with Huntington's disease (HD), a neurodegenerative disorder characterized by the loss of neurons in the striatum. It is thought to be caused by an enlarged unstable trinucleotide repeat in the gene called huntingtin, which is translated as a polyglutamine repeat in the protein produced. A fairly wide range of trinucleotide repeats (9-35) were detected in normal control samples, and repeat numbers greater than 40 were termed pathological.

[00284] Как и ожидалось, точность, достигнутая с применением способов, соответствующих некоторым вариантам осуществления, была существенно выше в случаях, когда прочтения выравнивались с графом последовательности, содержащим оба повтора, по сравнению со случаями, когда оба повтора подвергались анализу независимо. Наблюдали аналогичное улучшение по сравнению с другим процессом генотипирования КТП (Фиг. 7). [00284] As expected, the accuracy achieved using the methods of some embodiments was significantly higher in cases where reads were aligned to a sequence graph containing both repeats, compared to cases where both repeats were analyzed independently. A similar improvement was observed compared to another CTP genotyping process (Figure 7).

[00285] Для демонстрации возможности вырождения генотипов повторов ДНК в рамках методов реализации мы проанализировали полиаланиновый повтор в гене PHOX2B в 150 контрольных образцах, отобранных у здоровых субъектов, и одного образца, в котором содержалась известная экспансия патогенного типа. PHOX2B содержит полиаланиновый повтор 20 кодонов, который может расширяться, что вызывает проявление врожденного центрального гиповентиляционного синдрома. В соответствии с известным описанием повтора (Amiel et al. 2003), все контрольные образцы, кроме нескольких, генотипировали в соотношении 20/20. В рамках вариантов реализации выполняли точное генотипирование единственного образца с экспансией в соотношении 20/27; Правильность данного генотипа была подтверждена в рамках секвенирования Сэнгера. Также в рамках вариантов реализации был правильно определен патогенный ОНВ, смежный с гомополимером аденозина в гене MSH2, в трех репликатах, полученных в результате полногеномного секвенирования, образца, полученного от компании SeraCare Life Sciences (см. раздел «Дополнительные материалы»). [00285] To demonstrate the ability of the methods to degenerate DNA repeat genotypes, we analyzed the polyalanine repeat in the PHOX2B gene in 150 healthy control samples and one sample containing a known pathogenic expansion. PHOX2B contains a 20-codon polyalanine repeat that can expand to cause the manifestation of congenital central hypoventilation syndrome. Consistent with the known description of the repeat (Amiel et al. 2003), all but a few control samples were genotyped at a 20/20 ratio. In the embodiments, a single sample with a 20/27 expansion was accurately genotyped; this genotype was confirmed to be correct by Sanger sequencing. Also, within the scope of embodiments, the pathogenic ONV adjacent to the adenosine homopolymer in the MSH2 gene was correctly identified in three replicates obtained from whole genome sequencing of a sample obtained from SeraCare Life Sciences (see the Supplementary Materials section).

[00286] Таким образом, мы разработали новый способ, удовлетворяющий потребность в более точном генотипировании сложных локусов. Данный способ позволяет выполнять генотипирование полиаланиновых повторов и разделение сложных областей, содержащих повторы в непосредственной близости от малых вариантов и других повторов. Ожидается, что гибкость используемой в настоящем документе структуры графа последовательности позволит реализовать множество новых способов распознавания вариантов. [00286] Thus, we have developed a new method that addresses the need for more accurate genotyping of complex loci. This method enables genotyping of polyalanine repeats and separation of complex regions containing repeats in close proximity to small variants and other repeats. The flexibility of the sequence graph structure used herein is expected to enable many new variant recognition methods.

Анализ КТП CAG и CCG в локусе HTTAnalysis of CAG and CCG CTPs in the HTT locus

[00287] Для каждой комбинации генотипов повторов CAG и CCG был смоделирован образец короткого прочтения с использованием WGSIM (Li, н/о). Мы установили значение длины прочтения на 150, значение расстояния между концами сопряжения - на 350, значение стандартного отклонения расстояния между концами сопряжения - на 50, частоту мутаций и частоту базовых ошибок - на 0,0010 и долю делеций - на 0. Число пар устанавливали таким образом, чтобы получить 40-кратный охват локуса. Прочтения были выровнены с эталоном GRCh37 с BWA-MEM 0.7.17-r1194-грязн. (Li 2013). [00287] For each combination of CAG and CCG repeat genotypes, a short read pattern was simulated using WGSIM (Li, n/a). We set the read length value to 150, the mate end distance value to 350, the mate end distance standard deviation value to 50, the mutation rate and base error rate to 0.0010, and the deletion rate to 0. The number of pairs was set to obtain 40-fold coverage of the locus. Reads were aligned to the GRCh37 reference with BWA-MEM 0.7.17-r1194-dirty (Li 2013).

[00288] Мы проанализировали эти данные двумя способами с применением некоторых вариантов реализации. Во-первых, мы указали структуру локуса HTT с использованием экспрессии (CAG)*CAACAG(CCG)*, обеспечивая выравнивание прочтений с графом последовательности, содержащим оба повтора. Затем мы использовали некоторые варианты реализации для выполнения независимого анализа каждого повтора. В данном режиме прочтения были выровнены с графом, представляющим КТП CAG, также они были по отдельности выровнены с графом, представляющим КТП CCG. Наконец, мы проанализировали оба повтора независимо с использованием последних версий GangSTR и TredParse, в которых не используются графы последовательностей для выравнивания прочтений с областью повторов (Фиг. 7). [00288] We analyzed these data in two ways using several implementation options. First, we specified the structure of the HTT locus using the expression (CAG)*CAACAG(CCG)*, aligning the reads to a sequence graph containing both repeats. We then used several implementation options to perform independent analyses of each repeat. In this mode, reads were aligned to a graph representing the CAG CTP, and they were also individually aligned to a graph representing the CCG CTP. Finally, we analyzed both repeats independently using the latest versions of GangSTR and TredParse, which do not use sequence graphs to align reads to the repeat region (Figure 7).

[00289] На Фиг. 7 проиллюстрирована точность генотипирования КТП CAG и CCG в локусе HTT на основе смоделированных данных. (a) Характеристики варианта реализации, в котором прочтения выровнены с графом последовательности, содержащим оба повтора; (b) характеристики варианта реализации, в котором повторы анализируют независимо друг от друга; (c) характеристики GangSTR; (d) характеристики TredParse. Мы измерили максимальное процентное отклонение прогнозируемых длин КТП от ожидаемых длин КТП каждого смоделированного образца. Пунктирными синими линиями указан генотип в эталонном геноме, а сплошными красными линиями - пороговое значение патогенных экспансий. В рамках данного варианта реализации точно предсказывают верные генотипы всех образцов при совместном генотипировании обоих образцов. Совместное генотипирование имеет большое преимущество перед раздельным генотипированием обоих повторов при помощи любого из трех инструментов, для которого характерна высокая относительная частота ошибок, особенно в случаях, когда один из повторов значительно длиннее другого. [00289] Figure 7 illustrates the genotyping accuracy of the CAG and CCG CTPs at the HTT locus based on simulated data. (a) Characteristics of an embodiment in which reads are aligned to a sequence graph containing both repeats; (b) characteristics of an embodiment in which repeats are analyzed independently of each other; (c) GangSTR characteristics; (d) TredParse characteristics. We measured the maximum percentage deviation of predicted CTP lengths from the expected CTP lengths of each simulated sample. The dashed blue lines indicate the genotype in the reference genome, and the solid red lines indicate the pathogenic expansion threshold. This embodiment accurately predicts the correct genotypes for all samples when both samples are genotyped together. Joint genotyping has a major advantage over separate genotyping of both repeats using any of the three tools, which is characterized by a high relative error rate, especially in cases where one repeat is significantly longer than the other.

Наборы данныхDatasets

[00290] Данные полногеномного секвенирования без ПЦР, относящиеся к 150 неродственным контрольным образцам, использованные для анализа полиаланинового повтора PHOX2B, представляют собой группу Polaris Diversity. Данная группа состоит из образцов, выбранных из Международного ресурса по образцам генома (1000 Genomes Project Consortium et al. 2015) (www|.|internationalgenome|.|org/). Данные полногеномного секвенирования можно получить из Европейского архива генома-фенома (EGA; www|.|ebi|.|ac|.|uk/ega/home; PRJEB20654) и из архива прочтений последовательностей (АПП) Национального центра биотехнологической информации (АПП; www|.|ncbi|.|nlm|.|nih|.|gov/sra; bioproject:387148). Описание образцов (github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort). [00290] PCR-free whole-genome sequencing data from 150 unrelated control samples used for analysis of the PHOX2B polyalanine repeat constitute the Polaris Diversity cohort. This cohort consists of samples selected from the International Genome Sample Resource (1000 Genomes Project Consortium et al. 2015) (www|.|internationalgenome|.|org/). Whole-genome sequencing data are available from the European Genome-Phenome Archive (EGA; www|.|ebi|.|ac|.|uk/ega/home; PRJEB20654) and the National Center for Biotechnology Information Sequence Read Archive (SRA; www|.|ncbi|.|nlm|.|nih|.|gov/sra; bioproject:387148). Sample descriptions (github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort).

[00291] Образец, имеющий экспансию PHOX2B в соотношении 20/27, был предоставлен компанией Genetics Laboratories Molecular Genetics, медицинским исследовательским центром г. Адденбрук, штат Коннектикут, и Кембриджским университетом. [00291] A sample containing a 20/27 PHOX2B expansion was provided by Genetics Laboratories Molecular Genetics, Addenbrooke's Medical Research Center, Connecticut, and the University of Cambridge.

[00292] Образец под названием Seraseq Inherited Cancer DNA Mix v1, предоставленный компанией SeraCare Life Sciences, содержит определенно патогенные варианты, трудно поддающиеся распознаванию. Данные варианты были добавлены синтетическим методом в хорошо изученную клеточную линию GM24385; ожидаемые частоты таких вариантов составляют 50%. Одна из данный искусственных мутаций соответствует ОНВ в гене MSH2, который непосредственно примыкает к области длинного гомополимера А. [00292] The Seraseq Inherited Cancer DNA Mix v1 sample provided by SeraCare Life Sciences contains distinct pathogenic variants that are difficult to detect. These variants were synthetically added to the well-characterized GM24385 cell line; the expected frequencies of such variants are 50%. One of these artificial mutations corresponds to the ONB in the MSH2 gene, which is immediately adjacent to the long homopolymer A region.

[00293] Подготовку трех репликатов образца SeraCare выполняли с использованием набора Illumina TruSeq PCR Free. Работу с репликатами проводили на одной полосе NovaSeq6000 с применением рабочего процесса XP, после чего проводилось секвенирование с длиной прочтения в 2 × 151. Репликаты анализировали с применением ПО Sentieon DNASeq FASTQ to VCF и ПО Whole Genome Resequencing v8.0.0 на облачной платформе Basespace (https://basespace.illumina.com). Sentieon можно рассматривать в качестве показателя эффективности распознавания вариантов с помощью программного пакета BWA-GATK производства Broad, в рамках которого реализуются такие же алгоритмы. Ни одна из единиц программного обеспечения не позволяла выполнить правильное определение ОНВ MSH2. Файлы Fastq и результаты анализа представлены в следующем разделе облачной платформы Basespace: https://basespace.illumina.com/s/HAQNxJyEtJLP [00293] Three replicates of the SeraCare sample were prepared using the Illumina TruSeq PCR Free kit. The replicates were run on a single lane of NovaSeq6000 using the XP workflow and sequenced at 2 × 151 read length. The replicates were analyzed using Sentieon DNASeq FASTQ to VCF and Whole Genome Resequencing v8.0.0 on the Basespace cloud platform (https://basespace.illumina.com). Sentieon can be considered as a proxy for the variant calling performance of Broad's BWA-GATK software suite, which implements the same algorithms. None of the software units correctly called the MSH2 ONV. The Fastq files and analysis results are available in the following section of the Basespace cloud platform: https://basespace.illumina.com/s/HAQNxJyEtJLP

[00294] Содержание настоящего описания может быть реализовано в иных формах при условии сохранения его существенных характеристик. Описанные варианты реализации следует рассматривать только как иллюстративные варианты реализации, не имеющие ограничительного характера. Таким образом, область применения настоящего документа определяется соответствующими приложенными пунктами, а не приведенным выше описанием. Все изменения, соответствующие значению и диапазону эквивалентности пунктов, должны быть включены в область их применения. [00294] The contents of this description may be implemented in other forms, provided that its essential characteristics are preserved. The described embodiments should be considered only as illustrative embodiments and not limiting. Accordingly, the scope of application of this document is determined by the corresponding appended claims, and not by the above description. All changes that come within the meaning and range of equivalence of the claims should be included within their scope of application.

--->--->

ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙSEQUENCE LIST

<110> Illumina, Inc.<110> Illumina, Inc.

Долженко ЕгорDolzhenko Egor

<120> ИНСТРУМЕНТ НА ОСНОВЕ ГРАФОВ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ <120> A SEQUENCE GRAPH BASED TOOL FOR DETERMINING

ВАРИАЦИЙ В ОБЛАСТЯХ КОРОТКИХ ТАНДЕМНЫХ ПОВТОРОВVARIATIONS IN THE SHORT TANDEM REPEAT AREAS

<130> ILMNP037<130>ILMNP037

<150> US 62/815,322<150> US 62/815,322

<151> 2019-03-07<151> 2019-03-07

<160> 5 <160> 5

<170> PatentIn версия 3.5<170> PatentIn version 3.5

<210> 1<210> 1

<211> 12<211> 12

<212> ДНК<212> DNA

<213> Искусственная последовательность<213> Artificial sequence

<220><220>

<223> Синтезированная<223> Synthesized

<400> 1<400> 1

cagcaacagc cg 12cagcaacagc cg 12

<210> 2<210> 2

<211> 12<211> 12

<212> ДНК<212> DNA

<213> Искусственная последовательность<213> Artificial sequence

<220><220>

<223> Синтезированная<223> Synthesized

<400> 2<400> 2

cagcaacagc gg 12cagcaacagc gg 12

<210> 3<210> 3

<211> 14<211> 14

<212> ДНК<212> DNA

<213> Искусственная последовательность<213> Artificial sequence

<220><220>

<223> Синтезированная<223> Synthesized

<400> 3<400> 3

tcgtcggcag cgtc 14tcgtcggcag cgtc 14

<210> 4<210> 4

<211> 15<211> 15

<212> ДНК<212> DNA

<213> Искусственная последовательность<213> Artificial sequence

<220><220>

<223> Синтезированная<223> Synthesized

<400> 4<400> 4

cagcagcagc agcag 15cagcagcagc agcag 15

<210> 5<210> 5

<211> 15<211> 15

<212> ДНК<212> DNA

<213> Искусственная последовательность<213> Artificial sequence

<220><220>

<223> Синтезированная<223> Synthesized

<400> 5<400> 5

ccgccgccgc cgccg 15ccgccgccgc cgccg 15

<---<---

Claims (16)

1. Способ для секвенирования геномных локусов, включающих две или более последовательностей повторов, где способ реализуют с применением компьютера, снабженного одним или более процессорами и системной памятью, для генотипирования одной или более последовательностей повторов, каждая из которых содержит одну или более подпоследовательностей повторов, включающий:1. A method for sequencing genomic loci comprising two or more repeat sequences, wherein the method is implemented using a computer equipped with one or more processors and system memory, for genotyping one or more repeat sequences, each of which comprises one or more repeat subsequences, comprising: (a) получение графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит две или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов; (a) obtaining a sequence graph, wherein the sequence graph has a graph data structure with vertices representing nucleotide sequences and directed edges connecting the vertices, and wherein the sequence graph contains two or more proper simple cycles, wherein each proper simple cycle represents a subsequence of repeats; (b) выравнивание с помощью одного или более процессоров, прочтений последовательностей исследуемого образца по эталонному геному для определения геномных координат прочтений последовательностей и выбор подмножества прочтений последовательностей; и(b) aligning, using one or more processors, the sequence reads of the sample under study against a reference genome to determine the genomic coordinates of the sequence reads and selecting a subset of the sequence reads; and (c) выравнивание с помощью одного или более процессоров выбранного подмножества прочтений последовательностей с двумя или более последовательностей повторов, представленных графом последовательности, представляющим геномный локус.(c) aligning, using one or more processors, a selected subset of sequence reads with two or more repeat sequences represented by a sequence graph representing the genomic locus. 2. Способ по п. 1, где каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов.2. The method according to claim 1, wherein each subsequence of repeats contains repeats of a repeating unit of one or more nucleotides. 3. Способ по любому из пп. 1 или 2, где последовательность повторов из двух или более последовательностей повторов содержит конкретное повторяющееся звено, содержащее по меньшей мере один частично определенный нуклеотид.3. The method according to any one of claims 1 or 2, wherein the repeat sequence of two or more repeat sequences comprises a specific repeating unit comprising at least one partially defined nucleotide. 4. Способ по п. 3, где конкретное повторяющееся звено содержит вырожденные кодоны.4. The method according to claim 3, wherein the specific repeating unit contains degenerate codons. 5. Способ по любому из пп. 1-4, в котором два или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более повторяющихся подпоследовательностей.5. The method according to any one of claims 1 to 4, wherein the two or more proper simple cycles comprise two or more proper simple cycles representing two or more repeating subsequences. 6. Способ по любому из пп. 1-5, в котором граф последовательности дополнительно содержит два или более альтернативных путей двух или более аллелей. 6. The method according to any one of claims 1-5, wherein the sequence graph further comprises two or more alternative paths of two or more alleles. 7. Способ по п. 6, в котором два или более аллеля содержат индел или замену.7. The method of claim 6, wherein two or more alleles comprise an indel or substitution. 8. Способ по п. 6, в котором замена содержит однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП).8. The method according to claim 6, wherein the substitution comprises a single nucleotide variant (SNV) or a single nucleotide polymorphism (SNP). 9. Способ по п. 6, дополнительно включающий в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями.9. The method of claim 6, further comprising genotyping two or more alleles using sequence reads aligned to two or more alternative pathways. 10. Система для секвенирования геномных локусов, включающих две или более последовательностей повторов, где система содержит: системную память; и один или более процессоров, выполненных с возможностью:10. A system for sequencing genomic loci comprising two or more repeat sequences, wherein the system comprises: a system memory; and one or more processors configured to: (a) получения графа последовательности, где граф последовательности имеет структуру данных графа с вершинами, представляющими нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит два или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов;(a) obtaining a sequence graph, wherein the sequence graph has a graph data structure with vertices representing nucleotide sequences and directed edges connecting the vertices, and wherein the sequence graph contains two or more proper simple cycles, wherein each proper simple cycle represents a subsequence of repeats; (b) выравнивания прочтений последовательностей исследуемого образца по эталонному геному для определения геномных координат прочтений последовательностей и выбора подмножества прочтений последовательностей; и(b) aligning the sequence reads of the sample under study with the reference genome to determine the genomic coordinates of the sequence reads and selecting a subset of the sequence reads; and (c) выравнивания с помощью одного или более процессоров выбранного подмножества прочтений последовательностей с двумя или более последовательностей повторов, представленных графом последовательности, представляющим геномный локус.(c) aligning, using one or more processors, a selected subset of sequence reads with two or more repeat sequences represented by a sequence graph representing the genomic locus.
RU2023116499A 2019-03-07 2020-03-06 Sequence graph tool for determining variations in regions of short tandem repeats RU2825664C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US62/815,322 2019-03-07

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2021108143A Division RU2799654C2 (en) 2019-03-07 2020-03-06 Sequence graph-based tool for determining variation in short tandem repeat areas

Publications (2)

Publication Number Publication Date
RU2023116499A RU2023116499A (en) 2023-06-28
RU2825664C2 true RU2825664C2 (en) 2024-08-28

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2263949C2 (en) * 2000-10-05 2005-11-10 Арм Лимитед Translated commands with possible rerun
WO2015058120A1 (en) * 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2016038220A1 (en) * 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2263949C2 (en) * 2000-10-05 2005-11-10 Арм Лимитед Translated commands with possible rerun
WO2015058120A1 (en) * 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2016038220A1 (en) * 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P. NOVAK et al. RepeatExplorer: a Galaxy-based web server for genome-wide characterization of eukaryotic repetitive elements from next-generation sequence reads, BIOINFORMATICS.,Vol. 29, No. 6, 2013, page 792-793. P. NOVAK et al. TAREAN: a 7 computational tool for identification and characterization of satellite DNA from unassembled short reads, NUCLEIC ACIDS RESEARCH,Vol. 45, No. 12, 2017, page e111-e111. *

Similar Documents

Publication Publication Date Title
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
US12374422B2 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
US20220254442A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
RU2825664C2 (en) Sequence graph tool for determining variations in regions of short tandem repeats
RU2799654C2 (en) Sequence graph-based tool for determining variation in short tandem repeat areas
HK40054694A (en) Sequence-graph based tool for determining variation in short tandem repeat regions
HK40040528B (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
HK40040528A (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
HK1244513B (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)