RU2847257C1 - Creation of optimized nucleotide sequences - Google Patents
Creation of optimized nucleotide sequencesInfo
- Publication number
- RU2847257C1 RU2847257C1 RU2022131720A RU2022131720A RU2847257C1 RU 2847257 C1 RU2847257 C1 RU 2847257C1 RU 2022131720 A RU2022131720 A RU 2022131720A RU 2022131720 A RU2022131720 A RU 2022131720A RU 2847257 C1 RU2847257 C1 RU 2847257C1
- Authority
- RU
- Russia
- Prior art keywords
- nucleotide sequence
- codon
- list
- optimized
- optimized nucleotide
- Prior art date
Links
Abstract
Description
РОДСТВЕННАЯ ЗАЯВКАRELATED APPLICATION
[0001] Данная заявка испрашивает приоритет по предварительной заявке на патент США с регистрационным №63/021345, поданной 7 мая 2020 г., раскрытие которой включено в данный документ посредством ссылки во всей своей полноте. Предварительная заявка на патент США с регистрационным №62/978180, поданная 18 февраля 2020 г., включена в данный документ посредством ссылки во всей своей полноте.[0001] This application claims priority to U.S. Provisional Patent Application Ser. No. 63/021,345, filed May 7, 2020, the disclosure of which is incorporated herein by reference in its entirety. U.S. Provisional Patent Application Ser. No. 62/978,180, filed February 18, 2020, is incorporated herein by reference in its entirety.
ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛВНОСТЕЙSEQUENCE LIST
[0002] В настоящем описании делается ссылка на Перечень последовательностей (представленный в электронном виде 7 мая 2021 г. как файл с расширением, txt с названием MRT-2131WO_SL). Данный файл с расширением, txt был создан 27 апреля 2021 г. и имеет размер 63,5 КБ. Полное содержание перечня последовательностей включено в данный документ посредством ссылки.[0002] This disclosure makes reference to the Sequence Listing (submitted electronically on May 7, 2021, as a .txt file named MRT-2131WO_SL). This .txt file was created on April 27, 2021, and has a size of 63.5 KB. The entire contents of the sequence listing are incorporated herein by reference.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF TECHNOLOGY TO WHICH THE INVENTION RELATES
[0003] Настоящее изобретение относится к способам создания оптимизированной нуклеотидной последовательности. В частности, настоящее изобретение относится к способам, в которых нуклеотидную последовательность оптимизируют для синтеза in vitro и для экспрессии функционального белка, полипептида или пептида, кодируемого оптимизированной нуклеотидной последовательностью, в клетке.[0003] The present invention relates to methods for creating an optimized nucleotide sequence. In particular, the present invention relates to methods in which a nucleotide sequence is optimized for in vitro synthesis and for expression of a functional protein, polypeptide or peptide encoded by the optimized nucleotide sequence in a cell.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
[0004] Терапия на основе мРНК приобретает все большее значение при лечении различных заболеваний, особенно вызванных дисфункцией белков или генов. Генетические мутации в последовательности ДНК организма могут привести к аберрантной экспрессии генов, что приводит к дефектам при продуцировании или функционировании белков. Например, мутации в последовательности, лежащей в основе ДНК, могут привести к недостаточной экспрессии или сверхэкспрессии белка или продуцированию дисфункциональных белков. Восстановление нормальных или здоровых уровней белка может быть достигнуто с помощью терапии на основе мРНК, которая широко применима к ряду заболеваний, вызванных дисфункцией генов или белков.[0004] mRNA-based therapy is becoming increasingly important in the treatment of various diseases, particularly those caused by protein or gene dysfunction. Genetic mutations in an organism's DNA sequence can lead to aberrant gene expression, resulting in defects in protein production or function. For example, mutations in the underlying DNA sequence can lead to underexpression or overexpression of a protein or the production of dysfunctional proteins. Restoration of normal or healthy protein levels can be achieved through mRNA-based therapy, which is widely applicable to a number of diseases caused by gene or protein dysfunction.
[0005] При терапии на основе мРНК молекулу мРНК, кодирующую функциональный белок, который может заменить дефектный или отсутствующий белок, доставляют в целевую клетку или ткань. Введение мРНК, кодирующей терапевтический белок, эффективный при лечении или предупреждении заболевания или нарушения, также может обеспечить рентабельную альтернативу терапии рекомбинантно полученным пептидом, полипептидом или белком. Терапия на основе мРНК может восстановить нормальные уровни эндогенного белка или обеспечить экзогенный терапевтический белок без необратимого изменения последовательности генома или проникновения в ядро клетки. Терапия на основе мРНК использует преимущество собственного механизма продуцирования и процессинга белка в клетке для лечения заболеваний или нарушений, является гибкой в отношении подбора дозировок и состава и широко применима к любому заболеванию или состоянию, вызванному дефектом лежащего в основе гена или белка или поддающемуся лечению путем предоставления экзогенного белка.[0005] In mRNA-based therapy, an mRNA molecule encoding a functional protein that can replace a defective or missing protein is delivered to a target cell or tissue. Administration of mRNA encoding a therapeutic protein effective in the treatment or prevention of a disease or disorder can also provide a cost-effective alternative to recombinantly produced peptide, polypeptide, or protein therapy. mRNA-based therapy can restore normal levels of an endogenous protein or provide an exogenous therapeutic protein without irreversibly altering the genomic sequence or entering the cell nucleus. mRNA-based therapy takes advantage of a cell's own protein production and processing machinery to treat diseases or disorders, is flexible in dosage and composition, and is broadly applicable to any disease or condition caused by a defect in the underlying gene or protein or treatable by providing an exogenous protein.
[0006] Уровни экспрессии белка, кодируемого мРНК, могут в значительной степени влиять на эффективность и терапевтические преимущества терапии на основе мРНК. Эффективная экспрессия или продуцирование белка из мРНК внутри клетки зависит от множества факторов. Оптимизация состава и порядка кодонов в нуклеотидной последовательности, кодирующей белок («оптимизация кодонов»), может привести к более высокой экспрессии белка, кодируемого мРНК. В данной области техники известны различные способы оптимизации кодонов, однако каждый из них имеет существенные недостатки и ограничения с вычислительной и/или терапевтической точки зрения. В частности, известные способы оптимизации кодонов часто включают для каждой аминокислоты замену каждого кодона кодоном, наиболее часто используемым для этой аминокислоты, так что «оптимизированная» последовательность содержит только один кодон, кодирующий каждую аминокислоту (поэтому такую последовательность можно назвать последовательностью один к одному).[0006] Expression levels of a protein encoded by mRNA can significantly impact the efficacy and therapeutic benefits of mRNA-based therapies. Efficient expression or production of a protein from mRNA within a cell depends on a variety of factors. Optimization of the composition and order of codons in a nucleotide sequence encoding a protein ("codon optimization") can result in higher expression of the protein encoded by mRNA. Various methods of codon optimization are known in the art; however, each has significant drawbacks and limitations from a computational and/or therapeutic standpoint. In particular, known methods of codon optimization often involve replacing each codon with the most frequently used codon for that amino acid for each amino acid, so that the "optimized" sequence contains only one codon encoding each amino acid (therefore, such a sequence can be referred to as a one-to-one sequence).
[0007] Соответственно, существует потребность в усовершенствованных способах оптимизации кодонов, которые обеспечивают оптимизированную нуклеотидную последовательность для повышения экспрессии белка при терапии на основе мРНК.[0007] Accordingly, there is a need for improved codon optimization methods that provide an optimized nucleotide sequence to enhance protein expression in mRNA-based therapy.
СУЩНОСТЬ ИЗОБРЕТЕНИЯESSENCE OF THE INVENTION
[0008] Настоящее изобретение направлено на удовлетворение потребности в усовершенствованных способах оптимизации нуклеиновых кислот для эффективной терапии на основе мРНК путем обеспечения способа анализа аминокислотной последовательности для получения по меньшей мере одной оптимизированной нуклеотидной последовательности. Оптимизированная нуклеотидная последовательность предназначена для увеличения экспрессии белка по сравнению с экспрессией белка, ассоциированного с нуклеотидной последовательностью, встречающейся в природе. Способы оптимизации нуклеиновых кислот по настоящему изобретению обеспечивают возможность синтезировать полноразмерные транскрипты мРНК in vitro и увеличивать экспрессию представляющего интерес белка в условиях, когда желательно достичь более высокого выхода белка.[0008] The present invention addresses the need for improved methods for optimizing nucleic acids for effective mRNA-based therapy by providing a method for analyzing an amino acid sequence to obtain at least one optimized nucleotide sequence. The optimized nucleotide sequence is designed to increase protein expression compared to the expression of a protein associated with the nucleotide sequence found in nature. The nucleic acid optimization methods of the present invention provide the ability to synthesize full-length mRNA transcripts in vitro and increase expression of a protein of interest under conditions where it is desirable to achieve a higher protein yield.
[0009] Например, можно использовать оптимизацию кодонов для увеличения экспрессии представляющего интерес белка в терапии на основе мРНК, иммунологии и вакцинации, иммунотерапии рака, биотехнологии и производстве. Оптимизация кодонов обеспечивает кодирующую белок нуклеотидную последовательность на основе различных критериев без изменения последовательности транслируемых аминокислот кодируемого белка из-за избыточности генетического кода.[0009] For example, codon optimization can be used to increase the expression of a protein of interest in mRNA-based therapy, immunology and vaccination, cancer immunotherapy, biotechnology, and manufacturing. Codon optimization provides a protein-coding nucleotide sequence based on various criteria without changing the sequence of translated amino acids of the encoded protein due to redundancy in the genetic code.
[00010] Чтобы избежать дисбаланса между частотой использования кодонов мРНК и количеством когнатных тРНК, оптимизация кодонов может обеспечить такую композицию кодонов в нуклеотидной последовательности, которая лучше соответствует встречающемуся в природе количеству транспортных РНК (тРНК) в клетке-хозяине и позволяет избежать истощения конкретной тРНК. Поскольку количество тРНК влияет на скорость трансляции белка, оптимизация кодонов нуклеотидной последовательности может повысить эффективность трансляции белка и выход кодируемого белка. Например, не используя редкие кодоны, которые характеризуются низкой частотой использования кодонов, можно повысить эффективность трансляции белка и выход белка, поскольку нехватка редких тРНК может остановить или прекратить трансляцию белка. Однако оптимизация кодонов может происходить за счет снижения функциональной активности кодируемого белка и ассоциированной с этим потери эффективности, поскольку процесс может удалить информацию, кодируемую в нуклеотидной последовательности, которая важна для контроля трансляции белка и обеспечения правильного фолдинга синтезируемой полипептидной цепи (Mauro & Chappell, Trends Mol Med. 2014; 20 (11):604-13). Авторы настоящего изобретения обнаружили, что оптимизированные последовательности, которые сохраняют некоторое разнообразие, т.е. не обязательно включают только один кодон, кодирующий каждую аминокислоту, могут обеспечить повышенный выход белка по сравнению как со встречающимися в природе последовательностями, так и с последовательностями один к одному.[00010] To avoid an imbalance between the frequency of mRNA codon usage and the number of cognate tRNAs, codon optimization can ensure a codon composition in the nucleotide sequence that better matches the naturally occurring number of transfer RNAs (tRNAs) in the host cell and avoids depletion of a particular tRNA. Because the number of tRNAs affects the rate of protein translation, optimization of the nucleotide sequence codons can improve protein translation efficiency and the yield of the encoded protein. For example, avoiding rare codons, which are characterized by a low codon usage frequency, can improve protein translation efficiency and protein yield, since a shortage of rare tRNAs can halt or abort protein translation. However, codon optimization may come at the expense of reduced functional activity of the encoded protein and associated loss of efficiency, as the process can remove information encoded in the nucleotide sequence that is important for controlling protein translation and ensuring the correct folding of the synthesized polypeptide chain (Mauro & Chappell, Trends Mol Med. 2014; 20(11):604-13). The present inventors have found that optimized sequences that retain some diversity, i.e., do not necessarily include only one codon encoding each amino acid, can provide increased protein yield compared to both naturally occurring sequences and one-to-one sequences.
[00011] В первом аспекте настоящее изобретение относится к компьютеризированному способу создания оптимизированной нуклеотидной последовательности, включающему: (i) получение аминокислотной последовательности, где аминокислотная последовательность кодирует пептид, полипептид или белок; (ii) получение первой таблицы частот использования кодонов, где первая таблица частот использования кодонов содержит перечень аминокислот, где каждая аминокислота в таблице ассоциирована с по меньшей мере одним кодоном, и каждый кодон ассоциирован с частотой использования; (iii) удаление из таблицы частот использования кодонов любых кодонов, ассоциированных с частотой использования, которая меньше пороговой частоты; (iv) создание нормализованной таблицы частот использования кодонов путем нормализации частот использования кодонов, не удаленных на стадии (iii); и (v) создание оптимизированной нуклеотидной последовательности, кодирующей аминокислотную последовательность, путем выбора кодона для каждой аминокислоты в аминокислотной последовательности на основании частоты использования одного или более кодонов, ассоциированных с аминокислотой, в нормализованной таблице частот использования кодонов. В некоторых вариантах осуществления пороговую частоту выбирает пользователь. В некоторых вариантах осуществления пороговая частота находится в диапазоне от 5% до 30%, в частности составляет 5%, или 15%, или 20%, или 25%, или 30%, или, в частности, 10%. Авторы настоящего изобретения обнаружили, что пороговые частоты, имеющие значения, описанные в данном документе, могут обуславливать формирование оптимизированных последовательностей, которые способны обеспечить повышенный выход белка.[00011] In a first aspect, the present invention relates to a computerized method for generating an optimized nucleotide sequence, comprising: (i) obtaining an amino acid sequence, wherein the amino acid sequence encodes a peptide, polypeptide, or protein; (ii) obtaining a first table of codon usage frequencies, wherein the first table of codon usage frequencies comprises a list of amino acids, wherein each amino acid in the table is associated with at least one codon, and each codon is associated with a usage frequency; (iii) removing from the table of codon usage frequencies any codons associated with a usage frequency that is less than a cutoff frequency; (iv) creating a normalized table of codon usage frequencies by normalizing the frequencies of codons not removed in step (iii); and (v) creating an optimized nucleotide sequence encoding the amino acid sequence by selecting a codon for each amino acid in the amino acid sequence based on the frequency of usage of one or more codons associated with the amino acid in the normalized table of codon usage frequencies. In some embodiments, the cutoff frequency is selected by the user. In some embodiments, the cutoff frequency is in the range of 5% to 30%, in particular 5%, or 15%, or 20%, or 25%, or 30%, or in particular 10%. The inventors have found that cutoff frequencies having the values described herein can result in the formation of optimized sequences that are capable of providing increased protein yield.
[00012] В некоторых вариантах осуществления стадия создания нормализованной таблицы частот использования кодонов предусматривает: (а) распределение частот использования каждого кодона, ассоциированного с первой аминокислотой и удаленного на стадии (iii), на оставшиеся кодоны, ассоциированные с первой аминокислотой; и (b) повторение стадии (а) для каждой аминокислоты с получением нормализованной таблицы частот использования кодонов. В некоторых вариантах осуществления частоту использования удаленных кодонов равномерно распределяют среди оставшихся кодонов. В некоторых вариантах осуществления частоту использования удаленных кодонов распределяют среди оставшихся кодонов пропорционально частоте использования каждого оставшегося кодона.[00012] In some embodiments, the step of creating a normalized codon usage frequency table comprises: (a) distributing the usage frequencies of each codon associated with the first amino acid and removed in step (iii) to the remaining codons associated with the first amino acid; and (b) repeating step (a) for each amino acid to obtain a normalized codon usage frequency table. In some embodiments, the usage frequencies of the removed codons are distributed evenly among the remaining codons. In some embodiments, the usage frequencies of the removed codons are distributed among the remaining codons proportionally to the usage frequencies of each remaining codon.
[00013] В некоторых вариантах осуществления выбор кодона для каждой аминокислоты предусматривает: (а) идентификацию в нормализованной таблице частот использования кодонов одного или более кодонов, ассоциированных с первой аминокислотой аминокислотной последовательности; (b) выбор кодона, ассоциированного с первой аминокислотой, где вероятность выбора определенного кодона равна частоте использования, ассоциированной с кодоном, ассоциированным с первой аминокислотой, в нормализованной таблице частот использования кодонов; и (с) повторение стадий (а) и (b) до тех пор, пока не будет выбран кодон для каждой аминокислоты в аминокислотной последовательности.[00013] In some embodiments, selecting a codon for each amino acid comprises: (a) identifying in a normalized codon usage table one or more codons associated with a first amino acid of an amino acid sequence; (b) selecting a codon associated with the first amino acid, wherein the probability of selecting a particular codon is equal to the usage frequency associated with the codon associated with the first amino acid in the normalized codon usage table; and (c) repeating steps (a) and (b) until a codon for each amino acid in the amino acid sequence is selected.
[00014] В некоторых вариантах осуществления стадию создания оптимизированной нуклеотидной последовательности путем выбора кодона для каждой аминокислоты в аминокислотной последовательности (стадия (v) в приведенном выше способе) выполняют n раз для создания перечня оптимизированных нуклеотидных последовательностей.[00014] In some embodiments, the step of generating an optimized nucleotide sequence by selecting a codon for each amino acid in the amino acid sequence (step (v) in the above method) is performed n times to generate a list of optimized nucleotide sequences.
[00015] В некоторых вариантах осуществления способ дополнительно включает: скрининг перечня оптимизированных нуклеотидных последовательностей для выявления и удаления оптимизированных нуклеотидных последовательностей, не соответствующих одному или более критериям. Таким образом, способ позволяет исключить из рассмотрения значительное количество оптимизированных нуклеотидных последовательностей-кандидатов, если вероятность того, что они эффективны, снижается из-за несоответствия одному или более критериям. Другими словами, критерии указывают на практическую эффективность оптимизированной нуклеотидной последовательности, поэтому нуклеотидные последовательности, не соответствующие одному или более критериям, могут быть исключены из дальнейшего рассмотрения. Один или более критериев могут включать: последовательность, не содержащую один или более сигналов терминации; последовательность, характеризующуюся содержанием гуанина-цитозина в предварительно заданном диапазоне; последовательность, имеющую индекс адаптации кодонов выше порогового значения; последовательность, не содержащую один или более цис-элементов; последовательность, не содержащую один или более повторяющихся элементов; и другие представляющие интерес критерии.[00015] In some embodiments, the method further comprises: screening the list of optimized nucleotide sequences to identify and remove optimized nucleotide sequences that do not meet one or more criteria. Thus, the method allows for the exclusion from consideration of a significant number of candidate optimized nucleotide sequences if the likelihood that they are effective is reduced due to non-compliance with one or more criteria. In other words, the criteria indicate the practical effectiveness of the optimized nucleotide sequence, therefore, nucleotide sequences that do not meet one or more criteria can be excluded from further consideration. The one or more criteria can include: a sequence that does not contain one or more termination signals; a sequence characterized by a guanine-cytosine content in a predetermined range; a sequence that has a codon adaptation index above a threshold value; a sequence that does not contain one or more cis-elements; a sequence that does not contain one or more repeating elements; and other criteria of interest.
[00016] Таким образом, способ обеспечивает более короткий или отфильтрованный перечень оптимизированных нуклеотидных последовательностей. За счет уменьшения количества оптимизированных нуклеотидных последовательностей в перечне дополнительные стадии, выполняемые с последовательностями в перечне, например, дополнительные стадии алгоритма или стадии физического синтеза, выгодно уменьшаются в количестве и по сложности.[00016] Thus, the method provides a shorter or filtered list of optimized nucleotide sequences. By reducing the number of optimized nucleotide sequences in the list, additional steps performed on the sequences in the list, such as additional algorithmic steps or physical synthesis steps, are advantageously reduced in number and complexity.
[00017] В некоторых вариантах осуществления скрининг перечня оптимизированных нуклеотидных последовательностей предусматривает для определенного критерия: определение того, соответствует ли критерию каждая оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей; и обновление перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности из перечня или самого последнего обновленного перечня, если нуклеотидная последовательность не соответствует критерию.[00017] In some embodiments, screening a list of optimized nucleotide sequences comprises, for a certain criterion: determining whether each optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotide sequences meets the criterion; and updating the list of optimized nucleotide sequences by removing any nucleotide sequence from the list or the most recently updated list if the nucleotide sequence does not meet the criterion.
[00018] В некоторых вариантах осуществления определение того, соответствует ли критерию каждая оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, включает для каждой нуклеотидной последовательности определение того, соответствует ли критерию первая часть нуклеотидной последовательности, и где обновление перечня оптимизированных нуклеотидных последовательностей включает удаление нуклеотидной последовательности, если первая часть не соответствует критерию. В некоторых вариантах осуществления определение того, соответствует ли критерию каждая оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, дополнительно включает для каждой нуклеотидной последовательности определение того, соответствует ли критерию одна или более дополнительных частей нуклеотидной последовательности, где дополнительные части не перекрываются друг с другом и с первой частью, и обновление перечня оптимизированных последовательностей включает удаление нуклеотидной последовательности, если какая-либо часть не соответствует критерию, необязательно, где определение того, соответствует ли оптимизированная нуклеотидная последовательность критерию, останавливают, когда определено, что какая-либо часть не соответствует критерию.[00018] In some embodiments, determining whether each optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotide sequences meets the criterion includes, for each nucleotide sequence, determining whether a first portion of the nucleotide sequence meets the criterion, and where updating the list of optimized nucleotide sequences includes deleting the nucleotide sequence if the first portion does not meet the criterion. In some embodiments, determining whether each optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotide sequences meets the criterion further comprises, for each nucleotide sequence, determining whether one or more additional portions of the nucleotide sequence meet the criterion, wherein the additional portions do not overlap with each other and with the first portion, and updating the list of optimized sequences comprises deleting the nucleotide sequence if any portion does not meet the criterion, optionally, wherein the determination of whether the optimized nucleotide sequence meets the criterion is stopped when it is determined that any portion does not meet the criterion.
[00019] При такой фильтрации оптимизированных нуклеотидных последовательностей способ является вычислительно выгодным, поскольку последовательности могут быть исключены из перечня до того, как будут потрачены вычислительные и временные ресурсы на анализ всей последовательности. Таким образом, способ предпочтительно более эффективен. Кроме того, для некоторых критериев анализ по частям обеспечивает более подробный и селективный процесс скрининга. Используя содержание гуанина-цитозина в качестве примера, в данном способе не только удаляют последовательности, для которых среднее содержание гуанина-цитозина выходит за пределы предварительно заданного диапазона, но также предпочтительно удаляют любую последовательность, имеющую резкое повышение или падение содержания гуанина-цитозина в определенной части, что может препятствовать эффективной транскрипции или трансляции. Такие пики или падения могли быть пропущены, если бы полная последовательность была проанализирована только вся сразу, потому что части последовательности за пределами анализируемой части могли привести среднее содержание гуанина-цитозина в допустимый диапазон. Анализируя по частям, можно не только повысить вычислительную эффективность, но и выявить проблемы в последовательностях-кандидатах, которые в противном случае маскируются в среднем значении.[00019] By filtering optimized nucleotide sequences in this manner, the method is computationally efficient because sequences can be eliminated from the list before the computational and time resources are spent analyzing the entire sequence. Thus, the method is advantageously more efficient. Furthermore, for some criteria, portion-by-portion analysis provides a more detailed and selective screening process. Using guanine-cytosine content as an example, the method not only removes sequences for which the average guanine-cytosine content falls outside a predetermined range, but also advantageously removes any sequence that has a sharp rise or fall in guanine-cytosine content in a particular portion, which may interfere with efficient transcription or translation. Such peaks or falls might be missed if the entire sequence were analyzed only at once, because portions of the sequence outside the portion being analyzed could bring the average guanine-cytosine content into the acceptable range. By analyzing in parts, one can not only improve computational efficiency, but also identify problems in candidate sequences that are otherwise masked in the average.
[00020] Хотя в данном документе в качестве примера использовалось содержание гуанина-цитозина, следует понимать, что любой критерий, описанный в данном документе, можно анализировать по частям, как указано выше. Для некоторых критериев, например последовательности, содержащей сигнал терминации, вычислительная эффективность возрастет, но результат скрининга по частям не повлияет на содержание результирующего перечня, т.е. оценка сигналов терминации по частям приведет к удалению тех же нуклеотидных последовательностей из перечня, как если бы оценивалась полная последовательность. Для других, например содержания гуанина-цитозина или индекса адаптации кодонов, результаты скрининга могут отличаться, например, определенные последовательности могут быть удалены при использовании анализа по частям, которые не были бы удалены при оценке последовательностей во всей их полноте.[00020] Although guanine-cytosine content has been used as an example in this document, it should be understood that any criterion described in this document can be analyzed in a partial manner, as described above. For some criteria, such as a sequence containing a termination signal, computational efficiency will be increased, but the result of screening in a partial manner will not affect the content of the resulting list, i.e., evaluating termination signals in a partial manner will result in the removal of the same nucleotide sequences from the list as if the entire sequence were evaluated. For others, such as guanine-cytosine content or codon adaptation index, the screening results may differ, for example, certain sequences may be removed when using a partial analysis that would not be removed when evaluating the sequences in their entirety.
[00021] Первая часть и/или одна или более дополнительных частей нуклеотидной последовательности могут содержать предварительно заданное количество нуклеотидов, необязательно предварительно заданное количество нуклеотидов находится в диапазоне от 5 до 300 нуклеотидов, или от 10 до 200 нуклеотидов, или от 15 до 100 нуклеотидов, или от 20 до 50 нуклеотидов, например, 30 нуклеотидов, например, 100 нуклеотидов. Было обнаружено, что части такой длины обеспечивают оптимальный баланс.[00021] The first portion and/or one or more additional portions of the nucleotide sequence may comprise a predetermined number of nucleotides, optionally the predetermined number of nucleotides is in the range of 5 to 300 nucleotides, or 10 to 200 nucleotides, or 15 to 100 nucleotides, or 20 to 50 nucleotides, for example 30 nucleotides, for example 100 nucleotides. It has been found that portions of this length provide an optimal balance.
[00022] В некоторых вариантах осуществления первый критерий предусматривает нуклеотидную последовательность, не содержащую сигнал терминации, так что способ включает: определение того, содержит ли каждая оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей сигнал терминации; и обновление перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности из перечня или самого последнего обновленного перечня, если нуклеотидная последовательность содержит один или более сигналов терминации.[00022] In some embodiments, the first criterion provides a nucleotide sequence that does not contain a termination signal, so that the method includes: determining whether each optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotide sequences contains a termination signal; and updating the list of optimized nucleotide sequences by removing any nucleotide sequence from the list or the most recently updated list if the nucleotide sequence contains one or more termination signals.
[00023] Таким образом, способ обеспечивает более короткий или отфильтрованный перечень оптимизированных нуклеотидных последовательностей. За счет уменьшения количества оптимизированных нуклеотидных последовательностей в перечне дополнительные стадии, выполняемые с последовательностями в перечне, например, дополнительные стадии алгоритма или стадии физического синтеза, выгодно уменьшаются в количестве и по сложности.[00023] Thus, the method provides a shorter or filtered list of optimized nucleotide sequences. By reducing the number of optimized nucleotide sequences in the list, additional steps performed on the sequences in the list, such as additional algorithmic steps or physical synthesis steps, are advantageously reduced in number and complexity.
В некоторых вариантах осуществления сигнал терминации имеет следующую нуклеотидную последовательность: 5'-X1AUCUX2UX3-3', где X1, X2 и X3 независимо выбраны из А, С, Т или G. В некоторых вариантах осуществления сигнал терминации имеет одну из следующих нуклеотидных последовательностей: TATCTGTT; и/или ТТТТТТ; и/или AAGCTT; и/или GAAGAGC; и/или TCTAGA. В некоторых вариантах осуществления сигнал терминации имеет следующую нуклеотидную последовательность: 5'-X1AUCUX2UX3-3', где Х1, Х2 и Х3 независимо выбраны из А, С, U или G. В некоторых вариантах осуществления сигнал терминации имеет одну из следующих нуклеотидных последовательностей: UAUCUGUU; и/или UUUUUU; и/или AAGCUU; и/или GAAGAGC; и/или UCUAGA.In some embodiments, the termination signal has the following nucleotide sequence: 5'-X 1 AUCUX 2 UX 3 -3', wherein X 1 , X 2 and X 3 are independently selected from A, C, T or G. In some embodiments, the termination signal has one of the following nucleotide sequences: TATCTGTT; and/or TTTTTTT; and/or AAGCTT; and/or GAAGAGC; and/or TCTAGA. In some embodiments, the termination signal has the following nucleotide sequence: 5'-X 1 AUCUX 2 UX 3 -3', wherein X 1 , X 2 and X 3 are independently selected from A, C, U or G. In some embodiments, the termination signal has one of the following nucleotide sequences: UAUCUGUU; and/or UUUUUU; and/or AAGCUU; and/or GAAGAGC; and/or UCUAGA.
[00024] В некоторых вариантах осуществления второй критерий предусматривает нуклеотидную последовательность, характеризующуюся содержанием гуанина-цитозина в пределах предварительно заданного диапазона содержания гуанина-цитозина, так что способ включает: определение содержания гуанина-цитозина в каждой из оптимизированных нуклеотидных последовательностей в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, где содержание гуанина-цитозина в последовательности представляет собой процент оснований в нуклеотидной последовательности, которые представляют собой гуанин или цитозин; обновление перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности из перечня или самого последнего обновленного перечня, если ее содержание гуанина-цитозина выходит за пределы предварительно заданного диапазона содержания гуанина-цитозина. За счет уменьшения количества оптимизированных нуклеотидных последовательностей в перечне дополнительные стадии, выполняемые с последовательностями в перечне, например, дополнительные стадии алгоритма или стадии физического синтеза, выгодно уменьшаются в количестве и по сложности. В некоторых вариантах осуществления заданный диапазон содержания гуанина-цитозина составляет от 15% до 75%, или от 40% до 60%, или, в частности, от 30% до 70%.[00024] In some embodiments, the second criterion provides a nucleotide sequence characterized by a guanine-cytosine content within a predetermined range of guanine-cytosine content, such that the method comprises: determining the guanine-cytosine content of each of the optimized nucleotide sequences in a list or the most recently updated list of optimized nucleotide sequences, wherein the guanine-cytosine content of a sequence is the percentage of bases in a nucleotide sequence that are guanine or cytosine; updating the list of optimized nucleotide sequences by removing any nucleotide sequence from the list or the most recently updated list if its guanine-cytosine content is outside the predetermined range of guanine-cytosine content. By reducing the number of optimized nucleotide sequences in the list, additional steps performed on the sequences in the list, such as additional algorithm steps or physical synthesis steps, are advantageously reduced in number and complexity. In some embodiments, the desired range of guanine-cytosine content is from 15% to 75%, or from 40% to 60%, or, in particular, from 30% to 70%.
[00025] В некоторых вариантах осуществления третий критерий предусматривает нуклеотидную последовательность, имеющую индекс адаптации кодонов, превышающий предварительно заданное пороговое значение индекса адаптации кодонов, так что способ включает: определение индекса адаптации кодонов каждой из оптимизированных нуклеотидных последовательностей в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, где индекс адаптации кодонов последовательности является мерой предпочтения частоты использования кодона и может иметь значение от 0 до 1; обновление перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности, если ее индекс адаптации кодонов меньше заданного порогового значения индекса адаптации кодонов или равен ему. Таким образом, способ обеспечивает более короткий или отфильтрованный перечень оптимизированных нуклеотидных последовательностей. В некоторых вариантах осуществления пороговое значение индекса адаптации кодонов выбирает пользователь. В некоторых вариантах осуществления пороговое значение индекса адаптации кодонов составляет 0,7, или 0,75, или 0,85, или 0,9, или, в частности, 0,8. За счет уменьшения количества оптимизированных нуклеотидных последовательностей в перечне дополнительные стадии, выполняемые с последовательностями в перечне, например, дополнительные стадии алгоритма или стадии физического синтеза, выгодно уменьшаются в количестве и по сложности.[00025] In some embodiments, the third criterion provides a nucleotide sequence having a codon adaptation index greater than a predetermined codon adaptation index threshold, so that the method comprises: determining the codon adaptation index of each of the optimized nucleotide sequences in the list or the most recently updated list of optimized nucleotide sequences, wherein the codon adaptation index of a sequence is a measure of the preference for the frequency of codon usage and can have a value from 0 to 1; updating the list or the most recently updated list of optimized nucleotide sequences by removing any nucleotide sequence if its codon adaptation index is less than or equal to the predetermined codon adaptation index threshold. Thus, the method provides a shorter or filtered list of optimized nucleotide sequences. In some embodiments, the codon adaptation index threshold is selected by the user. In some embodiments, the codon adaptation index threshold is 0.7, or 0.75, or 0.85, or 0.9, or, in particular, 0.8. By reducing the number of optimized nucleotide sequences in the list, additional steps performed on the sequences in the list, such as additional algorithm steps or physical synthesis steps, are advantageously reduced in number and complexity.
[00026] В некоторых вариантах осуществления четвертый критерий предусматривает нуклеотидную последовательность, не содержащую по меньшей мере 2, например 3, смежных идентичных кодона, так что способ дополнительно включает: определение того, содержит ли какая-либо оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей по меньшей мере 2, например 3, смежных идентичных кодона; и обновление перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности, если она содержит по меньшей мере 2, например 3, смежных идентичных кодона. Было обнаружено, что повторяющиеся идентичные кодоны, другими словами, смежные идентичные кодоны, могут останавливать транскрипцию. Таким образом, удаляя из перечня любую оптимизированную нуклеотидную последовательность, содержащую 2 или более, 4 или более, 5 или более, 6 или более, 7 или более, 8 или более, 9 или более или, в частности, 3 или более идентичных смежных кодонов, можно не рассматривать и удалить последовательности, обеспечивающие менее эффективную транскрипцию.[00026] In some embodiments, the fourth criterion provides for a nucleotide sequence that does not contain at least 2, such as 3, contiguous identical codons, so that the method further comprises: determining whether any optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotide sequences contains at least 2, such as 3, contiguous identical codons; and updating the list or the most recently updated list of optimized nucleotide sequences by removing any nucleotide sequence if it contains at least 2, such as 3, contiguous identical codons. It has been found that repeated identical codons, in other words, contiguous identical codons, can stop transcription. Thus, by removing from the list any optimized nucleotide sequence containing 2 or more, 4 or more, 5 or more, 6 or more, 7 or more, 8 or more, 9 or more, or in particular 3 or more identical contiguous codons, it is possible to disregard and remove sequences that provide less efficient transcription.
[00027] В любом аспекте настоящего изобретения создание обновленного перечня оптимизированных нуклеотидных последовательностей можно выполнить путем удаления оптимизированных последовательностей из перечня на основе любой одной, любых двух или любых трех из следующих стадий:[00027] In any aspect of the present invention, the creation of an updated list of optimized nucleotide sequences may be accomplished by removing optimized sequences from the list based on any one, any two, or any three of the following steps:
(I) определение наличия сигнала терминации в одной или более оптимизированных нуклеотидных последовательностях и удаление нуклеотидных последовательностей из перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей, если они содержат сигнал терминации;(I) determining the presence of a termination signal in one or more optimized nucleotide sequences and removing the nucleotide sequences from the list or the most recently updated list of optimized nucleotide sequences if they contain a termination signal;
(II) определение содержания гуанина-цитозина в одной или более оптимизированных нуклеотидных последовательностях и удаление нуклеотидных последовательностей из перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей, если их содержание гуанина-цитозина выходит за пределы предварительно заданного диапазона;(II) determining the guanine-cytosine content of one or more optimized nucleotide sequences and removing nucleotide sequences from the list or the most recently updated list of optimized nucleotide sequences if their guanine-cytosine content is outside a predetermined range;
(III) определение индекса адаптации кодонов одной или более оптимизированных нуклеотидных последовательностей и удаление нуклеотидных последовательностей из перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей, если их содержание гуанина-цитозина выходит за пределы заданного диапазона.(III) determining the codon adaptation index of one or more optimized nucleotide sequences and removing nucleotide sequences from the list or the most recently updated list of optimized nucleotide sequences if their guanine-cytosine content is outside a specified range.
[00028] Во втором аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (I).[00028] In a second aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (I).
[00029] В третьем аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (II).[00029] In a third aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (II).
[00030] В четвертом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (III).[00030] In a fourth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (III).
[00031] В пятом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (I), затем стадии (II).[00031] In a fifth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (I), then step (II).
[00032] В шестом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (I), затем стадии (III).[00032] In a sixth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (I), then step (III).
[00033] В седьмом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (II), затем стадии (I).[00033] In a seventh aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (II), then step (I).
[00034] В восьмом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (II), затем стадии (III).[00034] In an eighth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (II), then step (III).
[00035] Более типично, способ в соответствии с настоящим изобретением включает стадии на основе сигнала терминации (I), стадии на основе содержания гуанина-цитозина (II) и стадии на основе индекса адаптации кодонов (III), чтобы получить краткий перечень оптимизированных нуклеотидных последовательностей, все из которых, как ожидается, будут обеспечивать полноразмерный транскрипт мРНК при синтезе путем транскрипции in vitro и обеспечивать высокие уровни экспрессии белка, кодируемого данной мРНК, in vivo. Стадии на основе сигнала терминации (I), стадии на основе содержания гуанина-цитозина (II) и стадии на основе индекса адаптации кодонов (III) можно выполнять в любом порядке. Преимущественно данные стадии можно выполнять в определенном порядке с целью оптимизации времени вычислений при определении короткого перечня оптимизированных нуклеотидных последовательностей.[00035] More typically, the method according to the present invention comprises termination signal-based steps (I), guanine-cytosine content-based steps (II), and codon adaptation index-based steps (III) to obtain a shortlist of optimized nucleotide sequences, all of which are expected to provide a full-length mRNA transcript when synthesized by transcription in vitro and to provide high levels of expression of the protein encoded by the mRNA in vivo. The termination signal-based steps (I), the guanine-cytosine content-based steps (II), and the codon adaptation index-based steps (III) can be performed in any order. Advantageously, these steps can be performed in a certain order in order to optimize the computing time in determining the shortlist of optimized nucleotide sequences.
[00036] В девятом конкретном аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (I), затем стадии (II), затем стадии (III). Путем фильтрации в таком порядке вычислительная эффективность стадий фильтрации может быть преимущественно доведена до максимума. Авторы настоящего изобретения обнаружили, что для типичного перечня оптимизированных нуклеотидных последовательностей и типичных входных параметров фильтрация на основе отбора мотивов обеспечивает удаление большинства последовательностей из перечня, за которым следует фильтрация на основе анализа содержания GC, а затем фильтрация на основе анализа CAI. Поскольку вычислительная эффективность процесса фильтрации частично определяется общим числом проанализированных последовательностей, т.е. суммой последовательностей, проанализированных на каждой стадии фильтрации, чем больше последовательностей можно удалить в начале процесса фильтрации, тем меньше последовательностей потребуется анализировать позже в процессе фильтрации, что увеличивает общую вычислительную эффективность данного способа. Кроме того, фильтрация на основе анализа CAI требует анализа всей последовательности, тогда как в вариантах осуществления настоящего изобретения фильтрация на основе отбора мотивов и фильтрация на основе анализа содержания GC могут анализировать только компоненты или части последовательности. Таким образом, способ, в котором делается акцент на уменьшении количества последовательностей в перечне, вводимом на стадии анализа CAI, вероятно, будет более эффективным в вычислительном отношении, чем другие способы.[00036] In a ninth specific aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (I), then step (II), then step (III). By filtering in this order, the computational efficiency of the filtering steps can be advantageously maximized. The inventors of the present invention have found that for a typical list of optimized nucleotide sequences and typical input parameters, filtering based on motif selection removes the majority of sequences from the list, followed by filtering based on GC content analysis, and then filtering based on CAI analysis. Since the computational efficiency of the filtering process is determined in part by the total number of sequences analyzed, i.e., the sum of the sequences analyzed in each filtering step, the more sequences that can be removed at the beginning of the filtering process, the fewer sequences that need to be analyzed later in the filtering process, which increases the overall computational efficiency of the method. Furthermore, CAI-based filtering requires analysis of the entire sequence, whereas in embodiments of the present invention, motif-based filtering and GC-content-based filtering can analyze only components or portions of the sequence. Thus, a method that emphasizes reducing the number of sequences in the list input during the CAI analysis stage is likely to be more computationally efficient than other methods.
[00037] В десятом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (I), затем стадии (III), затем стадии (II).[00037] In a tenth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (I), then step (III), then step (II).
[00038] В одиннадцатом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (II), затем стадии (I), затем стадии (III).[00038] In an eleventh aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (II), then step (I), then step (III).
[00039] В двенадцатом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (II), затем стадии (III), затем стадии (I).[00039] In a twelfth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (II), then step (III), then step (I).
[00040] В тринадцатом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (III), затем стадии (I), затем стадии (II).[00040] In a thirteenth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (III), then step (I), then step (II).
[00041] В четырнадцатом аспекте настоящего изобретения после создания одной или более оптимизированных нуклеотидных последовательностей способ дополнительно включает выполнение стадии (III), затем стадии (II), затем стадии (I).[00041] In a fourteenth aspect of the present invention, after generating one or more optimized nucleotide sequences, the method further comprises performing step (III), then step (II), then step (I).
[00042] В некоторых вариантах осуществления аминокислотная последовательность получена из базы данных аминокислотных последовательностей. В некоторых вариантах осуществления способ дополнительно включает запрос аминокислотной последовательности из базы данных аминокислотных последовательностей, где аминокислотную последовательность получают в ответ на запрос.[00042] In some embodiments, the amino acid sequence is obtained from an amino acid sequence database. In some embodiments, the method further comprises querying the amino acid sequence from the amino acid sequence database, wherein the amino acid sequence is obtained in response to the query.
[00043] В некоторых вариантах осуществления первая таблица частот использования кодонов получена из базы данных таблиц частот использования кодонов. В некоторых вариантах осуществления способ дополнительно включает запрос первой таблицы частот использования кодонов из базы данных таблиц частот использования кодонов, где первая таблица частот использования кодонов получена в ответ на запрос.[00043] In some embodiments, the first table of codon usage frequencies is obtained from a database of codon usage tables. In some embodiments, the method further comprises querying the first table of codon usage frequencies from the database of codon usage tables, wherein the first table of codon usage frequencies is obtained in response to the query.
[00044] В пятнадцатом аспекте настоящее изобретение относится к компьютерной программе, содержащей инструкции, которые, когда программа выполняется компьютером, заставляют компьютер выполнять способ согласно любому из вариантов осуществления первого аспекта.[00044] In a fifteenth aspect, the present invention relates to a computer program comprising instructions that, when the program is executed by a computer, cause the computer to perform a method according to any of the embodiments of the first aspect.
[00045] В шестнадцатом аспекте настоящее изобретение относится к системе обработки данных, содержащей средства для осуществления способа согласно любому из вариантов осуществления первого аспекта.[00045] In a sixteenth aspect, the present invention relates to a data processing system comprising means for implementing the method according to any of the embodiments of the first aspect.
[00046] В семнадцатом аспекте настоящее изобретение относится к машиночитаемому носителю данных, на котором сохранена компьютерная программа по третьему аспекту.[00046] In a seventeenth aspect, the present invention relates to a computer-readable storage medium on which the computer program of the third aspect is stored.
[00047] В восемнадцатом аспекте настоящее изобретение относится к сигналу носителя данных, несущему компьютерную программу по третьему аспекту.[00047] In an eighteenth aspect, the present invention relates to a data carrier signal carrying the computer program of the third aspect.
[00048] В девятнадцатом аспекте настоящее изобретение относится к способу синтеза нуклеотидной последовательности, включающему: выполнение способа согласно любому варианту осуществления первого аспекта для создания по меньшей мере одной оптимизированной нуклеотидной последовательности; и синтез по меньшей мере одной из созданных оптимизированных нуклеотидных последовательностей. В некоторых вариантах осуществления способ дополнительно включает вставку по меньшей мере одной из синтезированных оптимизированных последовательностей в вектор нуклеиновой кислоты для применения в транскрипции in vitro.[00048] In a nineteenth aspect, the present invention relates to a method for synthesizing a nucleotide sequence, comprising: performing the method according to any embodiment of the first aspect to create at least one optimized nucleotide sequence; and synthesizing at least one of the created optimized nucleotide sequences. In some embodiments, the method further comprises inserting at least one of the synthesized optimized sequences into a nucleic acid vector for use in in vitro transcription.
[00049] В некоторых вариантах осуществления способ дополнительно включает вставку одного или более сигналов терминации на 3'-конце синтезированных оптимизированных нуклеотидных последовательностей. В некоторых вариантах осуществления вставляют более одного сигнала терминации, и указанные сигналы терминации разделяют 10 парами оснований или менее, например разделяют 5-10 парами оснований. В некоторых вариантах осуществления один или более сигналов терминации имеют следующую нуклеотидную последовательность: 5'-Х1АТСТХ2ТХ3-3', где X1, X2 и X3 независимо выбраны из А, С, Т или G. В некоторых вариантах осуществления один или более сигналов терминации имеют одну из следующих нуклеотидных последовательностей: TATCTGTT; ТТТТТТ; AAGCTT; GAAGAGC и/или TCTAGA. В некоторых вариантах осуществления более одного сигнала терминации кодируют следующей нуклеотидной последовательностью: (а) 5'-X1ATCTX2TX3-(ZN)-Х4АТСТХ5ТХ6-3' или (b) 5'-X1ATCTX2TX3-(ZN)-Х4АТСТХ5ТХ6-(ZM)-Х7АТСТХ8ТХ9-3', где Х1, Х2, Х3, Х4, Х5, Х6, Х7, Х8 и Х9 независимо выбраны из А, С, Т или G, ZN представляет собой спейсерную последовательность из N нуклеотидов, a ZM представляет собой спейсерную последовательность из М нуклеотидов, каждый из которых независимо выбран из А, С, Т или G, и где N и/или М независимо составляют 10 или меньше.[00049] In some embodiments, the method further comprises inserting one or more termination signals at the 3' end of the synthesized optimized nucleotide sequences. In some embodiments, more than one termination signal is inserted and the termination signals are separated by 10 base pairs or less, such as separated by 5-10 base pairs. In some embodiments, the one or more termination signals have the following nucleotide sequence: 5'-X 1 ATCTX 2 TX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, T or G. In some embodiments, the one or more termination signals have one of the following nucleotide sequences: TATCTGTT; TTTTTTT; AAGCTT; GAAGAGC and/or TCTAGA. In some embodiments, more than one termination signal is encoded by the following nucleotide sequence: (a) 5'-X 1 ATCTX 2 TX 3 -(Z N )-X 4 ATCTX 5 TX 6 -3' or (b) 5'-X 1 ATCTX 2 TX 3 -(Z N )-X 4 ATCTX 5 TX 6 -(Z M )-X 7 ATCTX 8 TX 9 -3', wherein X 1 , X 2 , X 3 , X 4 , X 5 , X 6 , X 7 , X 8 and X 9 are independently selected from A, C, T or G, Z N is a spacer sequence of N nucleotides, and Z M is a spacer sequence of M nucleotides, each of which is independently selected from A, C, T or G, and wherein N and/or M are independently 10 or less.
[00050] В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит промотор для РНК-полимеразы, функционально связанный с оптимизированной нуклеотидной последовательностью, где необязательно промотор для РНК-полимеразы представляет собой промотор для РНК-полимеразы SP6 или промотор для РНК-полимеразы Т7. В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит нуклеотидную последовательность, кодирующую 5'-UTR, функционально связанную с оптимизированной нуклеотидной последовательностью. В некоторых вариантах осуществления 5'-UTR отличается от 5'-UTR встречающейся в природе мРНК, кодирующей аминокислотную последовательность. В некоторых вариантах осуществления 5'-UTR имеет нуклеотидную последовательность под SEQ ID NO: 16. В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит нуклеотидную последовательность, кодирующую 3'-UTR, функционально связанную с оптимизированной нуклеотидной последовательностью. В некоторых вариантах осуществления З'-UTR отличается от 3'-UTR встречающейся в природе мРНК, кодирующей аминокислотную последовательность. В некоторых вариантах осуществления 3'-UTR имеет нуклеотидную последовательность под SEQ ID NO: 17 или SEQ ID NO: 18. В некоторых вариантах осуществления вектор нуклеиновой кислоты представляет собой плазмиду. В некоторых вариантах осуществления плазмиду линеаризуют перед транскрипцией in vitro. В некоторых вариантах осуществления плазмиду не линеаризуют перед транскрипцией in vitro. В некоторых вариантах осуществления плазмида является сверхспиральной.[00050] In some embodiments, the nucleic acid vector comprises a promoter for RNA polymerase operably linked to an optimized nucleotide sequence, wherein optionally the promoter for RNA polymerase is a promoter for SP6 RNA polymerase or a promoter for T7 RNA polymerase. In some embodiments, the nucleic acid vector comprises a nucleotide sequence encoding a 5' UTR operably linked to an optimized nucleotide sequence. In some embodiments, the 5' UTR is different from the 5' UTR of a naturally occurring mRNA encoding an amino acid sequence. In some embodiments, the 5' UTR has the nucleotide sequence of SEQ ID NO: 16. In some embodiments, the nucleic acid vector comprises a nucleotide sequence encoding a 3' UTR operably linked to an optimized nucleotide sequence. In some embodiments, the 3' UTR is different from the 3' UTR of a naturally occurring mRNA encoding an amino acid sequence. In some embodiments, the 3'-UTR has the nucleotide sequence of SEQ ID NO: 17 or SEQ ID NO: 18. In some embodiments, the nucleic acid vector is a plasmid. In some embodiments, the plasmid is linearized prior to in vitro transcription. In some embodiments, the plasmid is not linearized prior to in vitro transcription. In some embodiments, the plasmid is supercoiled.
[00051] В некоторых вариантах осуществления способ дополнительно включает применение по меньшей мере одной из синтезированных оптимизированных нуклеотидных последовательностей в транскрипции in vitro для синтеза мРНК. В некоторых вариантах осуществления мРНК синтезируют с помощью РНК-полимеразы SP6. В некоторых вариантах осуществления РНК-полимераза SP6 представляет собой встречающуюся в природе РНК-полимеразу SP6. В некоторых вариантах осуществления РНК-полимераза SP6 представляет собой рекомбинантную РНК-полимеразу SP6. В некоторых вариантах осуществления РНК-полимераза SP6 содержит метку. В некоторых вариантах осуществления метка представляет собой гистидиновую метку. В некоторых вариантах осуществления мРНК синтезируют с помощью РНК-полимеразы Т7.[00051] In some embodiments, the method further comprises using at least one of the synthesized optimized nucleotide sequences in in vitro transcription to synthesize mRNA. In some embodiments, mRNA is synthesized using SP6 RNA polymerase. In some embodiments, SP6 RNA polymerase is a naturally occurring SP6 RNA polymerase. In some embodiments, SP6 RNA polymerase is a recombinant SP6 RNA polymerase. In some embodiments, SP6 RNA polymerase comprises a tag. In some embodiments, the tag is a histidine tag. In some embodiments, mRNA is synthesized using T7 RNA polymerase.
[00052] В некоторых вариантах осуществления способ дополнительно включает отдельную стадию кэпирования и/или наращивания синтезированной мРНК. В некоторых вариантах осуществления кэпирование и наращивание происходят во время транскрипции in vitro.[00052] In some embodiments, the method further comprises a separate step of capping and/or extending the synthesized mRNA. In some embodiments, capping and extending occur during in vitro transcription.
[00053] В некоторых вариантах осуществления мРНК синтезируют в реакционной смеси, содержащей NTP в диапазоне концентраций 1-10 мМ каждого NTP, ДНК-матрицу в диапазоне концентраций 0,01-0,5 мг/мл и РНК-полимеразу SP6 в диапазоне концентраций 0,01-0,1 мг/мл. В некоторых вариантах осуществления реакционная смесь содержит NTP в концентрации 5 мМ каждого NTP, ДНК-матрицу в концентрации 0,1 мг/мл и РНК-полимеразу SP6 в концентрации 0,05 мг/мл.[00053] In some embodiments, mRNA is synthesized in a reaction mixture comprising NTPs in a concentration range of 1-10 mM of each NTP, DNA template in a concentration range of 0.01-0.5 mg/mL, and SP6 RNA polymerase in a concentration range of 0.01-0.1 mg/mL. In some embodiments, the reaction mixture comprises NTPs at a concentration of 5 mM of each NTP, DNA template at a concentration of 0.1 mg/mL, and SP6 RNA polymerase at a concentration of 0.05 mg/mL.
[00054] В некоторых вариантах осуществления мРНК синтезируют при температуре в диапазоне 37-56°С.[00054] In some embodiments, mRNA is synthesized at a temperature in the range of 37-56°C.
[00055] В некоторых вариантах осуществления NTP представляют собой встречающиеся в природе NTP. В некоторых вариантах осуществления NTP предусматривают модифицированные NTP.[00055] In some embodiments, the NTPs are naturally occurring NTPs. In some embodiments, the NTPs include modified NTPs.
[00056] В некоторых вариантах осуществления способ дополнительно включает синтез эталонной нуклеотидной последовательности, кодирующей аминокислотную последовательность, и по меньшей мере одной синтезированной оптимизированной нуклеотидной последовательности в соответствии со способом по настоящему изобретению, а также приведение в контакт эталонной нуклеотидной последовательности и по меньшей мере одной оптимизированной нуклеотидной последовательности с отдельной клеткой или организмом. В типичном варианте осуществления клетка или организм, приведенные в контакт с по меньшей мере одной синтезированной оптимизированной нуклеотидной последовательностью, обеспечивают повышенный выход белка, кодируемого оптимизированной нуклеотидной последовательностью, по сравнению с выходом белка, кодируемого эталонной нуклеотидной последовательностью, продуцируемой клеткой или организмом, приведенными в контакт с синтезированной эталонной нуклеотидной последовательностью. В любом аспекте настоящего изобретения по меньшей мере одна оптимизированная нуклеотидная последовательность при синтезе может быть сконфигурирована для увеличения экспрессии белка по сравнению с экспрессией белка, кодируемого эталонной нуклеотидной последовательностью, при синтезе. Эталонная нуклеотидная последовательность может представлять собой: (а) встречающуюся в природе нуклеотидную последовательность, кодирующую аминокислотную последовательность; или (b) нуклеотидную последовательность, кодирующую аминокислотную последовательность, созданную посредством способа, отличного от способа согласно первому аспекту настоящего изобретения.[00056] In some embodiments, the method further comprises synthesizing a reference nucleotide sequence encoding an amino acid sequence and at least one synthesized optimized nucleotide sequence in accordance with the method of the present invention, and contacting the reference nucleotide sequence and the at least one optimized nucleotide sequence with a single cell or organism. In a typical embodiment, a cell or organism contacted with at least one synthesized optimized nucleotide sequence provides an increased yield of a protein encoded by the optimized nucleotide sequence, compared to the yield of a protein encoded by the reference nucleotide sequence produced by a cell or organism contacted with the synthesized reference nucleotide sequence. In any aspect of the present invention, at least one optimized nucleotide sequence, when synthesized, can be configured to increase the expression of a protein, compared to the expression of a protein encoded by the reference nucleotide sequence, when synthesized. The reference nucleotide sequence may be: (a) a naturally occurring nucleotide sequence encoding an amino acid sequence; or (b) a nucleotide sequence encoding an amino acid sequence created by a method other than the method according to the first aspect of the present invention.
[00057] В некоторых вариантах осуществления способ дополнительно включает трансфекцию синтезированной оптимизированной нуклеотидной последовательности в клетку либо in vitro, либо in vivo. В некоторых вариантах осуществления в трансфицированной клетке определяют уровень экспрессии белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью. В некоторых вариантах осуществления в трансфицированной клетке определяют функциональную активность белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью.[00057] In some embodiments, the method further comprises transfecting the synthesized optimized nucleotide sequence into a cell either in vitro or in vivo. In some embodiments, the expression level of the protein encoded by the synthesized optimized nucleotide sequence is determined in the transfected cell. In some embodiments, the functional activity of the protein encoded by the synthesized optimized nucleotide sequence is determined in the transfected cell.
[00058] В двадцатом аспекте настоящее изобретение обеспечивает синтезированную оптимизированную нуклеотидную последовательность, созданную согласно способу по настоящему изобретению, для применения в терапии. В этот аспект настоящего изобретения включены способы лечения, включающие введение синтезированной оптимизированной нуклеотидной последовательности, созданной согласно способу по настоящему изобретению, субъекту-человеку, нуждающемуся в таком лечении. В некоторых вариантах осуществления способы, описанные в данном документе, обеспечивают терапевтическую композицию, содержащую мРНК, которая кодирует терапевтический пептид, полипептид или белок, для применения при доставке субъекту или при лечении субъекта. В некоторых вариантах осуществления мРНК кодирует белок, представляющий собой регулятор трансмембранной проводимости при муковисцидозе (CFTR).[00058] In a twentieth aspect, the present invention provides a synthesized optimized nucleotide sequence created according to the method of the present invention for use in therapy. Included in this aspect of the present invention are methods of treatment comprising administering a synthesized optimized nucleotide sequence created according to the method of the present invention to a human subject in need of such treatment. In some embodiments, the methods described herein provide a therapeutic composition comprising mRNA that encodes a therapeutic peptide, polypeptide, or protein for use in delivering to a subject or in treating a subject. In some embodiments, the mRNA encodes a protein that is a cystic fibrosis transmembrane conductance regulator (CFTR).
[00059] В двадцать первом аспекте настоящее изобретение обеспечивает синтезированную in vitro нуклеиновую кислоту, содержащую оптимизированную нуклеотидную последовательность, состоящую из кодонов, ассоциированных с частотой использования, которая равна 10% или больше; где оптимизированная нуклеотидная последовательность:[00059] In the twenty-first aspect, the present invention provides an in vitro synthesized nucleic acid comprising an optimized nucleotide sequence consisting of codons associated with a usage frequency that is equal to or greater than 10%; wherein the optimized nucleotide sequence:
не содержит сигнал терминации, имеющий одну из следующих нуклеотидных последовательностей:does not contain a termination signal having one of the following nucleotide sequences:
5'-X1AUCUX2UX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, U или G; и 5'-X1AUCUX2UX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, U или G;5'-X 1 AUCUX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G; and 5'-X 1 AUCUX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G;
не содержит каких-либо отрицательных цис-регуляторных элементов и отрицательных повторяющихся элементов; иdoes not contain any negative cis-regulatory elements or negative repeat elements; and
имеет индекс адаптации кодонов больше 0,8;has a codon adaptation index greater than 0.8;
где при разделении на неперекрывающиеся части длиной 30 нуклеотидов каждая часть оптимизированной нуклеотидной последовательности характеризуется диапазоном содержания гуанина-цитозина от 30% до 7 0%. В некоторых вариантах осуществления оптимизированная нуклеотидная последовательность не содержит сигнал терминации, имеющий одну из следующих последовательностей: TATCTGTT; ТТТТТТ; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA. В некоторых вариантах осуществления нуклеиновая кислота представляет собой мРНК. В некоторых вариантах осуществления нуклеиновая кислота, синтезированная in vitro, предназначена для применения в терапии.wherein, when divided into non-overlapping portions of 30 nucleotides in length, each portion of the optimized nucleotide sequence is characterized by a guanine-cytosine content range from 30% to 70%. In some embodiments, the optimized nucleotide sequence does not comprise a termination signal having one of the following sequences: TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA. In some embodiments, the nucleic acid is mRNA. In some embodiments, the nucleic acid synthesized in vitro is intended for use in therapy.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS
[00060] Варианты осуществления настоящего изобретения будут описаны в качестве примера со ссылкой на следующие графические материалы, в которых:[00060] Embodiments of the present invention will be described by way of example with reference to the following drawings, in which:
[00061] На фигуре 1 изображен способ оптимизации кодонов согласно варианту осуществления настоящего изобретения.[00061] Figure 1 depicts a method for codon optimization according to an embodiment of the present invention.
[00062] На фигуре 2А изображена иллюстративная таблица частот использования кодонов для человека (Homo sapiens), созданная, исходя из одной или более экспериментально полученных частот использования кодонов. Значения в таблице были получены из данных, доступ к которым осуществляется через Базу данных по частоте использования кодонов, которая основана на общедоступных данных о частоте использования кодонов из базы данных NCBI GenBank (Flat File Release 160.0).[00062] Figure 2A depicts an illustrative table of codon usage frequencies for Homo sapiens, generated from one or more experimentally determined codon usage frequencies. The values in the table were obtained from data accessed through the Codon Usage Database, which is based on publicly available codon usage frequency data from the NCBI GenBank database (Flat File Release 160.0).
[00063] На фигуре 2В изображена нормализованная таблица частот использования кодонов, созданная путем нормализации частот использования кодонов из иллюстративной таблицы частот использования кодонов на фигуре 2А.[00063] Figure 2B depicts a normalized codon usage frequency table created by normalizing the codon usage frequencies from the exemplary codon usage frequency table in Figure 2A.
[00064] На фигуре 3 изображен сконструированный раздел таблицы частот использования кодонов для применения с иллюстративным способом нормализации таблицы частот использования кодонов.[00064] Figure 3 depicts a constructed section of a codon usage table for use with an exemplary method for normalizing a codon usage table.
[00065] На фигуре 4А изображена иллюстративная таблица из фигуры 3, нормализованная с равным распределением частоты использования.[00065] Figure 4A depicts the illustrative table from Figure 3 normalized to an equal distribution of usage frequency.
[00066] На фигуре 4В изображена иллюстративная таблица из фигуры 3, нормализованная с пропорциональным распределением частоты использования.[00066] Figure 4B depicts the illustrative table from Figure 3 normalized with a proportional distribution of frequency of use.
[00067] На фигуре 5 изображен сконструированный отрезок аминокислотной последовательности для применения в иллюстративном способе оптимизации кодонов.[00067] Figure 5 depicts a designed section of an amino acid sequence for use in an exemplary method for codon optimization.
[00068] На фигуре 6 изображен пример репозитория мотивов нуклеотидной последовательности, который включает сигнал терминации, подходящий для применения при удалении нуклеотидных последовательностей, содержащих еще один сигнал терминации.[00068] Figure 6 depicts an example of a repository of nucleotide sequence motifs that includes a termination signal suitable for use in removing nucleotide sequences containing another termination signal.
[00069] На фигуре 7 изображен способ применения дополнительных стадий алгоритма или стадий фильтрации к перечню оптимизированных нуклеотидных последовательностей. В конкретном варианте осуществления перечень оптимизированных нуклеотидных последовательностей для фильтрации был создан в соответствии со способом, показанным на фигуре 1.[00069] Figure 7 depicts a method for applying additional algorithm steps or filtering steps to a list of optimized nucleotide sequences. In a particular embodiment, the list of optimized nucleotide sequences for filtering was created in accordance with the method shown in Figure 1.
[00070] На фигуре 8 изображен вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применяют фильтрацию на основе анализа содержания гуанина-цитозина (GC). В конкретном варианте осуществления перечень оптимизированных нуклеотидных последовательностей для фильтрации был создан в соответствии со способом, показанным на фигуре 1.[00070] Figure 8 depicts an embodiment of the present invention in which a list of optimized nucleotide sequences is filtered based on guanine-cytosine (GC) content analysis. In a particular embodiment, the list of optimized nucleotide sequences for filtering was generated in accordance with the method shown in Figure 1.
[00071] На фигуре 9 изображен вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применяют фильтрацию на основе отбора мотивов и фильтрацию на основе анализа индекса адаптации кодонов (CAI). В конкретном варианте осуществления перечень оптимизированных нуклеотидных последовательностей для фильтрации был создан в соответствии со способом, показанным на фигуре 1.[00071] Figure 9 depicts an embodiment of the present invention in which motif selection-based filtering and codon adaptation index (CAI) analysis-based filtering are applied to a list of optimized nucleotide sequences. In a particular embodiment, the list of optimized nucleotide sequences for filtering was generated in accordance with the method shown in Figure 1.
[00072] На фигуре 10 изображен конкретный вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применили в указанном порядке фильтрацию на основе отбора мотивов, фильтрацию на основе анализа содержания гуанина-цитозина (GC) и фильтрацию на основе анализа индекса адаптации кодонов (CAI). В конкретном варианте осуществления перечень оптимизированных нуклеотидных последовательностей для фильтрации был создан в соответствии со способом, показанным на фигуре 1.[00072] Figure 10 depicts a specific embodiment of the present invention, in which a filtering based on motif selection, a filtering based on guanine-cytosine (GC) content analysis, and a filtering based on codon adaptation index (CAI) analysis were applied to a list of optimized nucleotide sequences, in that order. In a specific embodiment, the list of optimized nucleotide sequences for filtering was generated in accordance with the method shown in Figure 1.
[00073] На фигуре 11 изображен иллюстративный анализ содержания гуанина-цитозина (GC) неоптимизированных и оптимизированных нуклеотидных последовательностей, где содержание гуанина-цитозина (GC) частей нуклеотидной последовательности, кодирующей ЕРО, определяют для смежных неперекрывающихся частей длиной 30 нуклеотидов.[00073] Figure 11 depicts an illustrative analysis of the guanine-cytosine (GC) content of unoptimized and optimized nucleotide sequences, wherein the guanine-cytosine (GC) content of portions of the nucleotide sequence encoding EPO is determined for contiguous, non-overlapping portions of 30 nucleotides in length.
[00074] На фигуре 12 изображена иллюстративная гистограмма, показывающая выход белка, полученного из различных нуклеотидных последовательностей с оптимизированными кодонами, определенный с помощью анализа ELISA для ЕРО.[00074] Figure 12 depicts an illustrative histogram showing the yield of protein obtained from various codon-optimized nucleotide sequences as determined by an EPO ELISA assay.
[00075] На фигуре 13А изображен иллюстративный вестерн-блоттинг, использованный для определения выхода экспрессии белка CFTR, кодируемого оптимизированными нуклеотидными последовательностями, созданными согласно способу по настоящему изобретению, в эксперименте по определению зависимости от времени после того, как оптимизированные нуклеотидные последовательности трансфицировали в клетки человека.[00075] Figure 13A depicts an exemplary Western blot used to determine the expression yield of CFTR protein encoded by optimized nucleotide sequences generated according to the method of the present invention in a time-dependent experiment after the optimized nucleotide sequences were transfected into human cells.
[00076] На фигуре 13В изображен иллюстративный линейный график, показывающий количественную оценку данных вестерн-блоттинга, показанного на фигуре 13А.[00076] Figure 13B depicts an illustrative line graph showing the quantification of the Western blot data shown in Figure 13A.
[00077] На фигуре 14А изображен иллюстративный график данных, полученных в результате биоанализа для испытания мРНК, содержащих оптимизированную нуклеотидную последовательность, кодирующую hCFTR. Он изображает выходной ток короткого замыкания (Isc) в аппарате Уссинга для эпителиальной фиксации потенциала для каждой испытываемой мРНК.[00077] Figure 14A depicts an illustrative graph of data obtained from a bioassay for testing mRNA containing an optimized nucleotide sequence encoding hCFTR. It depicts the output short-circuit current (I sc ) in the Ussing epithelial voltage clamp apparatus for each mRNA tested.
[00078] На фигуре 14В изображен пример гистограммы, иллюстрирующей изменение активности hCFTR, показанной на фигуре 14А, выраженное в процентах от активности эталонной мРНК, кодирующей hCFTR.[00078] Figure 14B depicts an example of a histogram illustrating the change in hCFTR activity shown in Figure 14A, expressed as a percentage of the activity of a reference mRNA encoding hCFTR.
[00079] На фигуре 15А изображен иллюстративный вестерн-блоттинг, который демонстрирует трансляцию и экспрессию кодон-оптимизированной мРНК DNAI1 в клетках НЕК2 93Т. Вестерн-блоттинг проводили с антителом к DNAI1 и антителом к винкулину (контроль загрузки).[00079] Figure 15A depicts an illustrative Western blot demonstrating the translation and expression of codon-optimized DNAI1 mRNA in HEK2 93T cells. The Western blot was performed with an anti-DNAI1 antibody and an anti-vinculin antibody (loading control).
[00080] На фигуре 15В изображена иллюстративная гистограмма, показывающая уровень экспрессии белка DNAI1, нормализованный к белку винкулину (контроль загрузки), количественно определенный из иллюстративного вестерн-блоттинга на фигуре 15А. Выходы экспрессии белка DNAI1 представлены на графике как кратное увеличение относительно эталонного уровня, достигнутого с мРНК, кодирующей последовательность DNAL1, которая не была кодон-оптимизирована.[00080] Figure 15B depicts an illustrative histogram showing the expression level of DNAI1 protein normalized to the vinculin protein (loading control), quantified from the illustrative Western blot in Figure 15A. DNAI1 protein expression yields are plotted as fold increases relative to the reference level achieved with mRNA encoding the DNAL1 sequence that was not codon-optimized.
ОПРЕДЕЛЕНИЯDefinitions
[00081] Для облегчения понимания настоящего изобретения вначале ниже определены некоторые термины. Дополнительные определения следующих терминов и других терминов приводятся на протяжении всего описания.[00081] To facilitate understanding of the present invention, certain terms are initially defined below. Additional definitions of the following terms and other terms are provided throughout the description.
[00082] Используемые в данном описании и прилагаемой формуле изобретения формы единственного числа включают ссылки на множественное число, если из контекста явно не следует иное.[00082] As used in this specification and the appended claims, the singular forms "a," "an," and "the" include plural references unless the context clearly dictates otherwise.
[00083] Если специально не указано или не очевидно из контекста, используемый в данном документе термин «или» понимается как включающий и охватывает как «или», так и «и».[00083] Unless specifically stated or obvious from the context, the term "or" as used herein is understood to include and encompass both "or" and "and".
[00084] Термины «например» и «т.е.», используемые в данном документе, используются просто в качестве примера, без ограничения, и не должны толковаться как относящиеся только к тем элементам, которые явно перечислены в описании.[00084] The terms "for example" and "i.e." as used herein are used merely as examples, without limitation, and should not be construed as referring only to those elements that are expressly listed in the description.
[00085] Термины «или более», «по меньшей мере», «более чем» и т.п., например, «по меньшей мере один», как следует понимать, включают без ограничения по меньшей мере 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, бб, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 14 9 или 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000 или более чем указанное значение. Также включено любое большее число или промежуточное дробное число.[00085] The terms "or more," "at least," "more than," and the like, such as "at least one," should be understood to include, without limitation, at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, bb, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 14 9 or 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, or more than the stated value. Any higher number or intermediate fractional number is also included.
[00086] И наоборот, термин «не более чем» включает каждое значение, меньшее чем указанное значение. Например, выражение «не более чем 100 нуклеотидов» включает 100, 99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83, 82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1 и 0 нуклеотидов. Также включено любое меньшее число или промежуточное дробное число.[00086] Conversely, the term "not more than" includes every value less than the stated value. For example, the expression "not more than 100 nucleotides" includes 100, 99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83, 82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, and 0 nucleotides. Any smaller number or intermediate fractional number is also included.
[00087] Следует понимать, что термины «множество», «по меньшей мере два», «два или более», «по меньшей мере второй» и т.п. включают без ограничения по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 14 9 или 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000 или более. Также включено любое большее число или промежуточное дробное число.[00087] It should be understood that the terms “plurality”, “at least two”, “two or more”, “at least a second”, etc. include, without limitation, at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 14 9 or 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000 or more. Any larger number or intermediate fractional number is also included.
[00088] Если специально не указано или не очевидно из контекста, используемый в данном документе термин «приблизительно» понимается как находящийся в диапазоне нормального допуска в данной области техники, например, в пределах 2 стандартных отклонений от среднего значения. «Приблизительно» можно понимать в пределах 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0,5%, 0,1%, 0,05%, 0,01% или 0,001% от указанного значения. Если из контекста не следует иное, все приведенные в данном документе числовые значения отражают нормальные колебания, которые могут быть оценены специалистом в данной области.[00088] Unless specifically stated or obvious from the context, the term "about" as used herein is understood to mean within the range of normal tolerance in the art, for example, within 2 standard deviations of the mean. "About" can be understood to mean within 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0.5%, 0.1%, 0.05%, 0.01%, or 0.001% of the stated value. Unless the context otherwise requires, all numerical values given herein reflect normal variations that can be appreciated by one of ordinary skill in the art.
[00089] Используемый в данном документе термин «абортивный транскрипт» или «преждевременно абортированный транскрипт» или тому подобное представляет собой любой транскрипт, который короче, чем полноразмерная молекула мРНК, кодируемая ДНК-матрицей, которая возникает в результате преждевременного высвобождения РНК-полимеразы из матричной ДНК независимым от последовательности образом. В некоторых вариантах осуществления абортивный транскрипт может составлять менее 90% длины полноразмерной молекулы мРНК, которая транскрибируется с целевой молекулы ДНК, например, менее 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, 5%, 1% длины полноразмерной молекулы мРНК.[00089] As used herein, the term "abortive transcript" or "prematurely aborted transcript" or the like is any transcript that is shorter than the full-length mRNA molecule encoded by the DNA template, which results from the premature release of RNA polymerase from the template DNA in a sequence-independent manner. In some embodiments, the abortive transcript may be less than 90% of the length of the full-length mRNA molecule that is transcribed from the target DNA molecule, such as less than 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, 5%, 1% of the length of the full-length mRNA molecule.
[00090] Используемые в данном документе термины «кодон» и «кодоны» относятся к последовательности из трех нуклеотидов, которые вместе образуют единицу генетического кода. Каждому кодону соответствует определенная аминокислота или стоп-сигнал в процессе трансляции или синтеза белка. Генетический код является вырожденным, и конкретный аминокислотный остаток может кодироваться более чем одним кодоном. Например, кодоны могут содержать нуклеотиды ДНК или РНК.[00090] As used herein, the terms "codon" and "codons" refer to a sequence of three nucleotides that together form a unit of the genetic code. Each codon corresponds to a specific amino acid or stop signal during translation or protein synthesis. The genetic code is degenerate, and a particular amino acid residue can be encoded by more than one codon. For example, codons can contain DNA or RNA nucleotides.
[00091] Используемые в данном документе термины «оптимизация кодонов» и «кодон-оптимизированный» относятся к модификациям композиции кодонов встречающейся в природе нуклеиновой кислоты или нуклеиновой кислоты дикого типа, кодирующей пептид, полипептид или белок, которые не изменяют его аминокислотную последовательность, таким образом улучшая экспрессию белка из указанной нуклеиновой кислоты. В контексте настоящего изобретения «оптимизация кодонов» может также относиться к процессу, с помощью которого получают одну или более оптимизированных нуклеотидных последовательностей путем удаления с помощью фильтрации менее оптимальных нуклеотидных последовательностей из перечня нуклеотидных последовательностей, например фильтрации по содержанию гуанина-цитозина, индексу адаптации кодонов, наличию дестабилизирующих последовательностей или мотивов нуклеиновых кислот и/или наличию сайтов пауз и/или сигналов терминаторов.[00091] As used herein, the terms "codon optimization" and "codon-optimized" refer to modifications to the codon composition of a naturally occurring or wild-type nucleic acid encoding a peptide, polypeptide, or protein that do not alter its amino acid sequence, thereby improving protein expression from said nucleic acid. In the context of the present invention, "codon optimization" may also refer to a process by which one or more optimized nucleotide sequences are obtained by filtering out less optimal nucleotide sequences from a list of nucleotide sequences, such as filtering by guanine-cytosine content, codon adaptation index, the presence of destabilizing sequences or nucleic acid motifs, and/or the presence of pause sites and/or terminator signals.
[00092] Используемая в данном документе «полноразмерная мРНК» характеризуется при использовании специфического анализа, например, гель-электрофореза и выявления с использованием УФ-спектроскопии и УФ-спектрофотометрии с разделением с помощью капиллярного электрофореза. Длина молекулы мРНК, кодирующей полноразмерный полипептид, составляет по меньшей мере 50% длины полноразмерной молекулы мРНК, которая транскрибируется с целевой ДНК, например, по меньшей мере 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99,01%, 99,05%, 99,1%, 99,2%, 99,3%, 99,4%, 99,5%, 99,6%, 99,7%, 99,8%, 99,9% длины полноразмерной молекулы мРНК, которая транскрибируется с целевой ДНК.[00092] As used herein, "full-length mRNA" is characterized using a specific assay, such as gel electrophoresis and detection using UV spectroscopy and UV spectrophotometry with separation by capillary electrophoresis. The length of the mRNA molecule encoding the full-length polypeptide is at least 50% of the length of the full-length mRNA molecule that is transcribed from the target DNA, for example, at least 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.01%, 99.05%, 99.1%, 99.2%, 99.3%, 99.4%, 99.5%, 99.6%, 99.7%, 99.8%, 99.9% of the length of the full-length mRNA molecule that is transcribed from the target DNA.
[00093] Используемый в данном документе термин «in vitro» относится к событиям, которые происходят в искусственной среде, например, в пробирке или реакционном сосуде, в культуре клеток и т.д., а не в многоклеточном организме.[00093] As used herein, the term "in vitro" refers to events that occur in an artificial environment, such as a test tube or reaction vessel, cell culture, etc., rather than in a multicellular organism.
[00094] Используемый в данном документе термин «in vivo» относится к событиям, которые происходят в многоклеточном организме, как, например, в организме человека и отличного от человека животного. В контексте клеточных систем термин может использоваться в отношении событий, которые происходят в живой клетке (в противоположность, например, системам in vitro).[00094] As used herein, the term "in vivo" refers to events that occur in a multicellular organism, such as a human or non-human animal. In the context of cellular systems, the term may be used in relation to events that occur in a living cell (as opposed to, for example, in vitro systems).
[00095] Используемый в данном документе термин «матричная РНК (мРНК)» относится к полирибонуклеотиду, который кодирует по меньшей мере один полипептид. мРНК, используемая в данном документе, охватывает как модифицированную, так и немодифицированную РНК. мРНК может включать одну или более кодирующих и некодирующих областей. мРНК может быть получена посредством очистки из природных источников, получена с использованием рекомбинантных систем экспрессии и необязательно очищена, транскрибирована in vitro или химически синтезирована. При необходимости, например, в случае с химически синтезированными молекулами, мРНК может содержать аналоги нуклеозидов, такие как аналоги, имеющие химически модифицированные основания или сахара, модификации остова и т.д. Последовательность мРНК представлена в направлении 5'-3', если не указано иное.[00095] As used herein, the term "messenger RNA (mRNA)" refers to a polyribonucleotide that encodes at least one polypeptide. mRNA as used herein encompasses both modified and unmodified RNA. mRNA may include one or more coding and non-coding regions. mRNA may be obtained by purification from natural sources, produced using recombinant expression systems, and optionally purified, transcribed in vitro, or chemically synthesized. If desired, for example, in the case of chemically synthesized molecules, mRNA may contain nucleoside analogs, such as analogs having chemically modified bases or sugars, backbone modifications, etc. The mRNA sequence is presented in the 5'-3' direction unless otherwise indicated.
[00096] Используемый в данном документе термин «нуклеиновая кислота» в его самом широком смысле относится к любому соединению и/или веществу, которое включено или может быть включено в состав полинуклеотидной цепи. В некоторых вариантах осуществления нуклеиновая кислота представляет собой соединение и/или вещество, которое включено или может быть включено в состав полинуклеотидной цепи посредством фосфодиэфирной связи. В некоторых вариантах осуществления «нуклеиновая кислота» относится к отдельным остаткам нуклеиновой кислоты (например, нуклеотидам и/или нуклеозидам). В некоторых вариантах осуществления «нуклеиновая кислота» относится к полинуклеотидной цепи, содержащей отдельные остатки нуклеиновой кислоты. В некоторых вариантах осуществления «нуклеиновая кислота» охватывает РНК, а также одно- и/или двухнитевую ДНК и/или кДНК. Более того, термины «нуклеиновая кислота», «ДНК», «РНК» и/или подобные термины включают аналоги нуклеиновых кислот, т.е. аналоги, имеющие остов, отличный от фосфодиэфирного. Последовательность нуклеиновой кислоты представлена в направлении от 5' к 3', если не указано иное.[00096] As used herein, the term "nucleic acid" in its broadest sense refers to any compound and/or substance that is or can be incorporated into a polynucleotide chain. In some embodiments, a nucleic acid is a compound and/or substance that is or can be incorporated into a polynucleotide chain via a phosphodiester bond. In some embodiments, "nucleic acid" refers to individual nucleic acid units (e.g., nucleotides and/or nucleosides). In some embodiments, "nucleic acid" refers to a polynucleotide chain comprising individual nucleic acid units. In some embodiments, "nucleic acid" encompasses RNA, as well as single- and/or double-stranded DNA and/or cDNA. Moreover, the terms "nucleic acid," "DNA," "RNA," and/or similar terms include nucleic acid analogs, i.e., analogs having a backbone other than a phosphodiester backbone. Nucleic acid sequences are presented in the 5' to 3' direction unless otherwise indicated.
[00097] Используемый в данном документе термин «нуклеотидная последовательность» в самом широком смысле относится к порядку азотистых оснований в нуклеиновой кислоте. В некоторых вариантах осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в гене. В некоторых вариантах осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в гене, кодирующем белок. В некоторых вариантах осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в одно- и/или двухнитевой ДНК и/или кДНК. В некоторых вариантах осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в РНК. В некоторых вариантах осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в мРНК. В конкретном варианте осуществления «нуклеотидная последовательность» относится к порядку отдельных азотистых оснований в кодирующей белок последовательности РНК или ДНК. Нуклеотидная последовательность обычно представлена в направлении от 5' к 3', если не указано иное.[00097] As used herein, the term "nucleotide sequence" refers in its broadest sense to the order of nucleobases in a nucleic acid. In some embodiments, "nucleotide sequence" refers to the order of individual nucleobases in a gene. In some embodiments, "nucleotide sequence" refers to the order of individual nucleobases in a gene encoding a protein. In some embodiments, "nucleotide sequence" refers to the order of individual nucleobases in single- and/or double-stranded DNA and/or cDNA. In some embodiments, "nucleotide sequence" refers to the order of individual nucleobases in RNA. In some embodiments, "nucleotide sequence" refers to the order of individual nucleobases in mRNA. In a particular embodiment, "nucleotide sequence" refers to the order of individual nucleobases in a protein-coding RNA or DNA sequence. The nucleotide sequence is typically presented in the 5' to 3' direction, unless otherwise indicated.
[00098] Используемый в данном документе термин «преждевременная терминация» относится к терминации транскрипции до того, как будет транскрибирована полная длина ДНК-матрицы. Используемая в данном документе преждевременная терминация может быть вызвана наличием мотива нуклеотидной последовательности (также называемого в данном документе просто «мотивом»), например, сигнала терминации, в ДНК-матрице, что приводит к образованию транскриптов мРНК, которые короче, чем мРНК полной длины («преждевременно терминированные транскрипты» или «усеченные транскрипты мРНК»). Примеры сигнала терминации включают сигнал терминатора tl Е. coli rrnB (консенсусная последовательность: ATCTGTT) и его варианты, как описано в данном документе.[00098] As used herein, the term "premature termination" refers to the termination of transcription before the full length of the DNA template has been transcribed. As used herein, premature termination may be caused by the presence of a nucleotide sequence motif (also referred to herein simply as a "motif"), such as a termination signal, in the DNA template, which results in the formation of mRNA transcripts that are shorter than the full length mRNA ("prematurely terminated transcripts" or "truncated mRNA transcripts"). Examples of termination signals include the E. coli rrnB tl terminator signal (consensus sequence: ATCTGTT) and its variants, as described herein.
[00099] Используемый в данном документе термин «матричная ДНК» (или «ДНК-матрица») относится к молекуле ДНК, содержащей последовательность нуклеиновой кислоты, кодирующую транскрипт мРНК, который должен быть синтезирован посредством транскрипции in vitro. Матричная ДНК используется в качестве матрицы для транскрипции in vitro для получения транскрипта мРНК, кодируемого матричной ДНК. Матричная ДНК содержит все элементы, необходимые для транскрипции in vitro, в частности, промоторный элемент для связывания ДНК-зависимой РНК-полимеразы, такой как, например, РНК-полимеразы Т3, Т7 и SP6, который функционально связан с последовательностью ДНК, кодирующей необходимый транскрипт мРНК. Кроме того, матричная ДНК может содержать сайты связывания праймеров 5' и/или 3' относительно последовательности ДНК, кодирующей транскрипт мРНК, для определения идентичности последовательности ДНК, кодирующей транскрипт мРНК, например, с помощью ПЦР или секвенирования ДНК. «Матричная ДНК» в контексте настоящего изобретения может представлять собой линейную или кольцевую молекулу ДНК. Используемый в данном документе термин «матричная ДНК» может относиться к ДНК-вектору, такому как плазмидная ДНК, которая содержит последовательность нуклеиновой кислоты, кодирующую необходимый транскрипт мРНК.[00099] As used herein, the term "template DNA" (or "template DNA") refers to a DNA molecule containing a nucleic acid sequence encoding an mRNA transcript to be synthesized by in vitro transcription. The template DNA is used as a template for in vitro transcription to produce the mRNA transcript encoded by the template DNA. The template DNA contains all the elements necessary for in vitro transcription, in particular, a promoter element for binding a DNA-dependent RNA polymerase, such as, for example, T3, T7 and SP6 RNA polymerases, which is operably linked to a DNA sequence encoding the desired mRNA transcript. In addition, the template DNA may contain primer binding sites 5' and/or 3' relative to the DNA sequence encoding the mRNA transcript to determine the identity of the DNA sequence encoding the mRNA transcript, for example, by PCR or DNA sequencing. "Matrix DNA" in the context of the present invention may be a linear or circular DNA molecule. As used herein, the term "matrix DNA" may refer to a DNA vector, such as plasmid DNA, that contains a nucleic acid sequence encoding the desired mRNA transcript.
[000100] Все технические и научные термины, используемые в данном документе, имеют то же значение, которое обычно понимает специалист средней квалификации в области техники, к которой принадлежит данная заявка, и которое обычно используют в области, к которой принадлежит данная заявка. Публикации и другие справочные материалы, упоминаемые в данном документе для описания предшествующего уровня техники настоящего изобретения и для предоставления дополнительных подробностей, касающихся его осуществления, включены в данный документ посредством ссылки.[000100] All technical and scientific terms used herein have the same meaning as commonly understood by a person of ordinary skill in the art to which this application belongs and as commonly used in the field to which this application belongs. Publications and other references cited in this document to describe the prior art of the present invention and to provide additional details regarding its implementation are incorporated herein by reference.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
Функции оптимизации кодоновCodon optimization functions
[000101] В процессе экспрессии генов нуклеотидная последовательность, закодированная в последовательности ДНК, транскрибируется в молекулы РНК, а затем транслируется в белки, содержащие полипептидные цепи. Информация о последовательности, определяющая точный порядок аминокислотных остатков, которые должны быть включены в белковый продукт, закодирована в «кодонах» в последовательности ДНК и/или мРНК. Кодоны содержат последовательность из трех нуклеотидов, которые вместе образуют единицу генетического кода, и каждый кодон соответствует определенной аминокислоте или сигналу стоп-кодона. Генетический код является вырожденным, и конкретный аминокислотный остаток может кодироваться более чем одним кодоном.[000101] During gene expression, the nucleotide sequence encoded in the DNA sequence is transcribed into RNA molecules and then translated into proteins containing polypeptide chains. The sequence information that determines the precise order of amino acid residues to be included in the protein product is encoded in "codons" in the DNA and/or mRNA sequence. Codons contain a sequence of three nucleotides that together form a unit of genetic code, and each codon corresponds to a specific amino acid or stop codon signal. The genetic code is degenerate, and a particular amino acid residue may be encoded by more than one codon.
[000102] мРНК обычно считается типом РНК, которая переносит информацию от ДНК к рибосоме. Период существования мРНК обычно очень короткий и включает процессинг и трансляцию с последующим разрушением. Как правило, у эукариотических организмов процессинг мРНК включает добавление «кэпа» на N-конце (5') и «хвоста» на С-конце (3'). Типичным кэпом является 7-метилгуанозиновый кэп, который представляет собой гуанозин, связанный посредством 5'-5'-трифосфатной связи с первым транскрибируемым нуклеотидом. Присутствие кэпа важно для обеспечения устойчивости к нуклеазам, обнаруживаемым в большинстве эукариотических клеток. Наличие хвоста, как правило, представляет собой событие полиаденилирования, в ходе которого поли-А фрагмент добавляется к 3'-концу молекулы мРНК. Присутствие данного «хвоста» служит для защиты мРНК от разрушения под действием экзонуклеаз. Матричная РНК, как правило, транслируется рибосомами в ряд аминокислот, которые составляют белок.[000102] mRNA is generally considered a type of RNA that carries information from DNA to the ribosome. The lifespan of mRNA is typically very short and involves processing and translation, followed by degradation. Typically, in eukaryotic organisms, mRNA processing involves the addition of a cap at the N-terminus (5') and a tail at the C-terminus (3'). A typical cap is the 7-methylguanosine cap, which is a guanosine linked via a 5'-5'-triphosphate linkage to the first nucleotide to be transcribed. The presence of the cap is important for resistance to nucleases, which are found in most eukaryotic cells. The presence of the tail typically represents a polyadenylation event, in which a poly-A moiety is added to the 3' end of the mRNA molecule. The presence of this tail serves to protect mRNA from degradation by exonucleases. Messenger RNA is typically translated by ribosomes into the series of amino acids that make up protein.
[000103] На различных стадиях экспрессии генов на уровень экспрессии или продуцирования конкретного белка могут влиять многочисленные факторы. Например, присутствие определенных мотивов нуклеотидной последовательности может вызвать преждевременную терминацию транскрипции, поскольку последовательность ДНК транскрибируется в мРНК с помощью фермента РНК-полимеразы. Конкретный состав и порядок кодонов в кодирующей белок области («кодирующей последовательности») гена также может положительно или отрицательно влиять на эффективность и выход экспрессии белка. Например, присутствие редких кодонов, характеризующихся низкой частотой использования кодонов, может негативно повлиять на выход экспрессии белка из-за низкого количества когнатных транспортных РНК, кодирующих конкретную аминокислоту. В биотехнологических и терапевтических применениях часто желательно увеличить или довести до максимума выход белка при экспрессии указанного белка из нуклеотидной последовательности, кодирующей его, например, в терапевтических применениях, включая терапию на основе мРНК. Оптимизация кодонов обеспечивает кодирующие белок нуклеотидные последовательности на основе различных критериев без изменения кодируемой аминокислотной последовательности из-за избыточности генетического кода. Другими словами, поскольку несколько кодонов кодируют одну аминокислоту, большое количество нуклеотидных последовательностей может кодировать одну и ту же аминокислотную последовательность. Оптимизация кодонов направлена на создание одной или более нуклеотидных последовательностей, которые позволят увеличить выход белка.[000103] At various stages of gene expression, numerous factors can influence the level of expression or production of a particular protein. For example, the presence of certain nucleotide sequence motifs can cause premature termination of transcription as the DNA sequence is transcribed into mRNA by the enzyme RNA polymerase. The specific composition and order of codons in the protein-coding region ("coding sequence") of a gene can also positively or negatively influence the efficiency and yield of protein expression. For example, the presence of rare codons characterized by a low codon usage frequency can negatively influence the yield of protein expression due to the low number of cognate transfer RNAs encoding a particular amino acid. In biotechnological and therapeutic applications, it is often desirable to increase or maximize the yield of protein upon expression of said protein from the nucleotide sequence encoding it, for example, in therapeutic applications including mRNA-based therapy. Codon optimization provides protein-coding nucleotide sequences based on various criteria without altering the encoded amino acid sequence due to the redundancy of the genetic code. In other words, since multiple codons encode a single amino acid, a large number of nucleotide sequences can encode the same amino acid sequence. Codon optimization aims to create one or more nucleotide sequences that will increase protein yield.
Аминокислотные последовательности для создания оптимизированных нуклеотидных последовательностейAmino acid sequences for the creation of optimized nucleotide sequences
[000104] Встречающиеся в природе нуклеотидные последовательности можно использовать для получения[000104] Naturally occurring nucleotide sequences can be used to obtain
аминокислотной последовательности, кодирующей представляющий интерес белок, полипептид или пептид. Нуклеотидные последовательности можно получить путем выделения молекулы нуклеиновой кислоты из представляющего интерес организма и определения в ней точного порядка азотистых оснований (например гуанина, тимина, урацила, аденина и цитозина). В данной области техники известно множество способов, подходящих для получения встречающихся в природе нуклеотидных последовательностей. Нуклеотидную последовательность генов, кодирующих белок, можно получить различными хорошо известными способами секвенирования ДНК или РНК.The amino acid sequence encoding a protein, polypeptide, or peptide of interest. Nucleotide sequences can be obtained by isolating a nucleic acid molecule from the organism of interest and determining the precise order of its nitrogenous bases (e.g., guanine, thymine, uracil, adenine, and cytosine). Numerous methods suitable for obtaining naturally occurring nucleotide sequences are known in the art. The nucleotide sequence of protein-coding genes can be obtained using a variety of well-known DNA or RNA sequencing methods.
[000105] Например, ДНК из клетки человека можно извлечь, выделить и впоследствии фрагментировать. Фрагментированную ДНК можно клонировать в ДНК-векторы и амплифицировать в бактериях-хозяевах, создавая «библиотеки» коротких фрагментов ДНК. В качестве альтернативы фрагментированную ДНК можно амплифицировать с помощью полимеразной цепной реакции (ПЦР) и включить в библиотеки, подходящие для способов на основе высокопроизводительного секвенирования. Короткие фрагменты ДНК, полученные из исходного материала ДНК исходного организма, можно секвенировать по отдельности, а затем собрать в длинную непрерывную последовательность или последовательности путем сборки последовательностей. Сборка последовательностей представляет собой биоинформационный подход, который позволяет выравнивать и объединять короткие фрагменты нуклеотидных последовательностей, полученных из более длинной нуклеотидной последовательности, для реконструкции исходной или консенсусной нуклеотидной последовательности.[000105] For example, DNA from a human cell can be extracted, isolated, and subsequently fragmented. The fragmented DNA can be cloned into DNA vectors and amplified in bacterial hosts, creating “libraries” of short DNA fragments. Alternatively, the fragmented DNA can be amplified using polymerase chain reaction (PCR) and included in libraries suitable for high-throughput sequencing-based methods. Short DNA fragments derived from the starting DNA material of the source organism can be sequenced individually and then assembled into a long contiguous sequence or sequences by sequence assembly. Sequence assembly is a bioinformatics approach that aligns and joins short fragments of nucleotide sequences derived from a longer nucleotide sequence to reconstruct the original or consensus nucleotide sequence.
[000106] Нуклеотидные последовательности, созданные таким образом, т.е. последовательности, полученные экспериментальным путем и известные как точно описывающие встречающиеся в природе последовательности, обычно хранятся в общедоступных репозиториях или базах данных. Например, нуклеотидные последовательности, которые можно обрабатывать согласно способу по настоящему изобретению, можно получить из базы данных GenBank Национального центра биотехнологической информации (NCBI). Genbank представляет собой аннотированную коллекцию общедоступных нуклеотидных последовательностей и их транслированных белковых последовательностей с открытым доступом.[000106] The nucleotide sequences generated in this manner, i.e., sequences obtained experimentally and known to accurately describe naturally occurring sequences, are typically stored in publicly available repositories or databases. For example, nucleotide sequences that can be processed according to the method of the present invention can be obtained from the GenBank database of the National Center for Biotechnology Information (NCBI). GenBank is an annotated collection of publicly available nucleotide sequences and their translated protein sequences with open access.
Создание таблиц частот использования кодоновCreating codon frequency tables
[000107] Генетический код имеет 64 возможных кодона. Каждый кодон содержит последовательность из трех нуклеотидов. Частоту использования каждого кодона в кодирующих белок областях генома можно рассчитать, определив количество случаев, когда конкретный кодон появляется в кодирующих белок областях генома, и затем разделив полученное значение на общее количество кодонов, кодирующих одну и ту же аминокислоту в кодирующих белок областях генома. Эти расчеты можно выполнить на нуклеотидных последовательностях, найденных, например, в общедоступных репозиториях и/или базах данных, и поэтому они также представляют собой экспериментально полученные данные.[000107] The genetic code has 64 possible codons. Each codon contains a sequence of three nucleotides. The frequency of each codon's usage in protein-coding regions of the genome can be calculated by determining the number of times a particular codon appears in protein-coding regions of the genome and then dividing this value by the total number of codons encoding the same amino acid in protein-coding regions of the genome. These calculations can be performed on nucleotide sequences found, for example, in publicly available repositories and/or databases, and therefore also represent experimentally obtained data.
[000108] В таблице частот использования кодонов указана частота использования каждого кодона в данном организме. Каждая аминокислота в таблице ассоциирована с по меньшей мере одним кодоном, и каждый кодон ассоциирован с частотой использования. Таблицы частот использования кодонов хранятся в общедоступных базах данных, таких как База данных по частотам использования кодонов (Nakamura efc al. (2000) Nucleic Acids Research 28(1), 292; доступна онлайн по адресу https://www.kazusa.or.jp/codon/) и база данных таблиц частот использования кодонов High-performance Integrated Virtual Environment-Codon Usage Tables (HIVE-CUTs) (Athey efc al., (2017), BMC Bioinformatics 18(1), 391; доступна онлайн по адресу http://hive.biochemistry.gwu.edu/review/codon).[000108] A codon usage table lists the frequency of use of each codon in a given organism. Each amino acid in the table is associated with at least one codon, and each codon is associated with a usage frequency. Codon usage tables are stored in publicly available databases such as the Codon Usage Frequency Database (Nakamura efc al. (2000) Nucleic Acids Research 28(1), 292; available online at https://www.kazusa.or.jp/codon/) and the High-performance Integrated Virtual Environment-Codon Usage Tables (HIVE-CUTs) database of codon usage tables (Athey efc al., (2017) BMC Bioinformatics 18(1), 391; available online at http://hive.biochemistry.gwu.edu/review/codon).
Оптимизация кодоновCodon optimization
[000109] На фигуре 1 изображен способ оптимизации кодонов согласно настоящему изобретению. На первой стадии 101 получают аминокислотную последовательность. Аминокислотную последовательность можно получить с удаленной системы, сервера и/или общедоступной базы данных и можно получить по беспроводной связи, например, через интернет. В качестве альтернативы, аминокислотную последовательность можно получить из локальной системы, например, посредством проводного соединения.[000109] Figure 1 depicts a method for codon optimization according to the present invention. In a first step 101, an amino acid sequence is obtained. The amino acid sequence may be obtained from a remote system, server, and/or public database, and may be obtained wirelessly, such as via the Internet. Alternatively, the amino acid sequence may be obtained from a local system, such as via a wired connection.
Аминокислотная последовательность включает множество аминокислот.The amino acid sequence includes many amino acids.
[000110] На второй стадии 102 получают первую таблицу частот использования кодонов. Первую таблицу частот использования кодонов можно получить с удаленной системы, сервера и/или общедоступной базы данных и можно получить по беспроводной связи, например, через интернет. В качестве альтернативы, первую таблицу частот использования кодонов можно получить из локальной системы, например, посредством проводного соединения. Первая таблица частот использования кодонов содержит перечень аминокислот, где каждая аминокислота в таблице ассоциирована с по меньшей мере одним кодоном и каждый кодон ассоциирован с частотой использования.[000110] In the second step 102, a first table of codon usage frequencies is obtained. The first table of codon usage frequencies can be obtained from a remote system, server, and/or public database, and can be obtained wirelessly, for example, via the Internet. Alternatively, the first table of codon usage frequencies can be obtained from a local system, for example, via a wired connection. The first table of codon usage frequencies contains a list of amino acids, where each amino acid in the table is associated with at least one codon, and each codon is associated with a usage frequency.
[000111] На третьей стадии 103 кодоны удаляют из первой таблицы частот использования кодонов, если они ассоциированы с частотой использования кодонов, которая меньше пороговой частоты.[000111] In a third step, 103 codons are removed from the first codon usage frequency table if they are associated with a codon usage frequency that is less than a threshold frequency.
[000112] На четвертой стадии 104 частоты использования кодонов для кодонов, не удаленных на третьей стадии 103, нормализуют для создания нормализованной таблицы частот использования кодонов.[000112] In the fourth step 104, the codon usage frequencies for the codons not removed in the third step 103 are normalized to create a normalized codon usage frequency table.
[000113] На пятой стадии 105 создают оптимизированную нуклеотидную последовательность путем выбора кодона для каждой аминокислоты в аминокислотной последовательности на основе частоты использования одного или более кодонов, ассоциированных с аминокислотой в нормализованной таблице частот использования кодонов.[000113] In a fifth step 105, an optimized nucleotide sequence is created by selecting a codon for each amino acid in the amino acid sequence based on the frequency of use of one or more codons associated with the amino acid in a normalized codon frequency table.
Нормализация таблицы частот использования кодоновNormalization of the codon frequency table
[000114] На фигуре 2А изображена таблица частот использования кодонов, которую можно найти в базе данных таблиц частот использования кодонов. Изображенная таблица частот использования кодонов является только примером, и следует понимать, что любая таблица частот использования кодонов, например любая таблица частот использования кодонов, доступная в базе данных, может использоваться в настоящем изобретении для получения оптимизированной нуклеотидной последовательности. Данные, использованные для создания фигуры 2А, были получены из данных, доступ к которым осуществляется через Базу данных по частоте использования кодонов, на основе общедоступных данных о частоте использования кодонов в базе данных NCBI GenBank (Flat File Release 160.0).[000114] Figure 2A depicts a codon usage table that can be found in the codon usage table database. The depicted codon usage table is only an example, and it should be understood that any codon usage table, for example, any codon usage table available in the database, can be used in the present invention to obtain an optimized nucleotide sequence. The data used to create Figure 2A were obtained from data accessible through the Codon Usage Database, based on publicly available codon usage data in the NCBI GenBank database (Flat File Release 160.0).
[000115] Таблица частот использования кодонов содержит экспериментально полученные данные о том, как часто для конкретного биологического источника, из которого была создана таблица, каждый кодон используется для кодирования определенной аминокислоты. Эта информация выражается для каждого кодона в процентах (от 0 до 100%) или долях (от 0 до 1) того, как часто этот кодон используется для кодирования определенной аминокислоты по отношению к общему количеству раз, когда кодон кодирует эту аминокислоту.[000115] A codon frequency table contains experimentally obtained data on how often, for a specific biological source from which the table was created, each codon is used to encode a particular amino acid. This information is expressed for each codon as a percentage (from 0 to 100%) or a fraction (from 0 to 1) of how often that codon is used to encode a particular amino acid relative to the total number of times the codon encodes that amino acid.
[000116] Фигура 2 В иллюстрирует нормализованную таблицу частот использования кодонов, которая была создана из таблицы на фигуре 2А в соответствии со способом по настоящему изобретению. В примере на фигуре 2 В пороговую частоту 10% использовали для проведения нормализации. Следует понимать, что это только в качестве примера, и что в вариантах осуществления настоящего изобретения можно использовать любую другую подходящую пороговую частоту, как описано в данном документе.[000116] Figure 2B illustrates a normalized table of codon usage frequencies that was created from the table in Figure 2A in accordance with the method of the present invention. In the example in Figure 2B, a cutoff frequency of 10% was used to perform the normalization. It should be understood that this is only an example, and that any other suitable cutoff frequency, as described herein, can be used in embodiments of the present invention.
[000117] Способ, с помощью которого может быть предоставлена нормализованная таблица частот использования кодонов, и который был предоставлен в случае фигуры 2В, изображен на фигуре 3, где используются иллюстративные аминокислоты "X" и "Y". Следует понимать, что при создании нормализованной таблицы частот использования кодонов можно нормализовать любое количество аминокислот, от одной аминокислоты до каждой аминокислоты в таблице частот использования кодонов. В примере на фигуре 3 аминокислота X кодируется кодонами А, В, С, D, Е и F (каждый кодон представлен триплетом нуклеотидов и, таким образом, обозначен на фигуре как AAA, ВВВ и т.д.) с частотами, указанными на фигуре. Аминокислота Y кодируется кодонами G и Н с частотами, указанными на фигуре. На первой стадии любые кодоны, частота использования которых ниже пороговой частоты, удаляют из таблицы. Следует понимать, что хотя в способе, изображенном на фигуре 3, используется пороговая частота 10%, это приведено только в качестве примера и не предназначено для ограничения объема настоящего изобретения. Пороговая частота может находиться в диапазоне от 5% до 30%, например, составляет 5%, или 15%, или 20%, или 25%, или 30%, или, в частности, 10%. Было обнаружено, что эти значения пороговой частоты обеспечивают эффективный баланс между увеличенным выходом белка и сохранением информации, важной для контроля трансляции и обеспечения правильного фолдинга формирующейся полипептидной цепи. Следует понимать, что таблица частот использования кодонов на фигуре 3 не точно описывает фактическую встречающуюся в природе частоту использования кодонов, не в последнюю очередь потому, что она состоит только из двух аминокислот. Таблица на фигуре 3 предназначена только для иллюстрации способа нормализации таблицы частот использования кодонов.[000117] A method by which a normalized codon usage table can be provided, and which was provided in the case of Figure 2B, is depicted in Figure 3, where the exemplary amino acids "X" and "Y" are used. It should be understood that in creating a normalized codon usage table, any number of amino acids can be normalized, from one amino acid to every amino acid in the codon usage table. In the example of Figure 3, amino acid X is encoded by codons A, B, C, D, E, and F (each codon is represented by a triplet of nucleotides and, thus, is designated in the figure as AAA, BBB, etc.) with the frequencies indicated in the figure. Amino acid Y is encoded by codons G and H with the frequencies indicated in the figure. In the first step, any codons whose usage frequency is below the cutoff frequency are removed from the table. It should be understood that although a cutoff frequency of 10% is used in the method depicted in Figure 3, this is provided only as an example and is not intended to limit the scope of the present invention. The cutoff frequency may be in the range of 5% to 30%, for example, 5%, or 15%, or 20%, or 25%, or 30%, or, in particular, 10%. These cutoff frequency values have been found to provide an effective balance between increased protein yield and the preservation of information important for translation control and ensuring the correct folding of the nascent polypeptide chain. It should be understood that the codon usage table in Figure 3 does not accurately describe the actual naturally occurring codon usage frequency, not least because it consists of only two amino acids. The table in Figure 3 is intended only to illustrate the method for normalizing the codon usage table.
[000118] В примере на фигуре 3 кодоны С и Е имеют частоту использования ниже пороговой частоты 10% и, таким образом, удаляются из таблицы. Совокупная частота использования удаленных кодонов С и Е составляет 16%. Затем эту совокупную частоту использования распределяют среди оставшихся кодонов, которые кодируют аминокислоту X. Важно отметить, что совокупная частота использования, удаленная у аминокислоты X, распределяется только среди оставшихся кодонов, которые также кодируют аминокислоту X, т.е. в примере на фигурах 4А и 4 В частоты использования кодонов G и Н, которые кодируют аминокислоту Y, остаются неизменными.[000118] In the example of Figure 3, codons C and E have a usage frequency below the 10% cutoff frequency and are thus removed from the table. The cumulative usage frequency of the removed codons C and E is 16%. This cumulative usage frequency is then distributed among the remaining codons that encode amino acid X. It is important to note that the cumulative usage frequency removed from amino acid X is distributed only among the remaining codons that also encode amino acid X, i.e., in the example of Figures 4A and 4B, the usage frequencies of codons G and H, which encode amino acid Y, remain unchanged.
[000119] В некоторых вариантах осуществления удаленную совокупную частоту использования равномерно распределяют между оставшимися кодонами, которые кодируют аминокислоту X. Такой вариант осуществления изображен на фигуре 4А. Удаленную совокупную частоту использования 16% равномерно распределили между оставшимися кодонами А, В, D и F, так что каждый оставшийся кодон получил дополнительные 4% частоты использования. Частоты использования кодонов аминокислоты X теперь нормализованы.[000119] In some embodiments, the removed cumulative usage frequency is evenly distributed among the remaining codons that encode amino acid X. Such an embodiment is depicted in Figure 4A. The removed cumulative usage frequency of 16% is evenly distributed among the remaining codons A, B, D, and F, such that each remaining codon receives an additional 4% usage frequency. The codon usage frequencies of amino acid X are now normalized.
[000120] В некоторых вариантах осуществления удаленную совокупную частоту использования пропорционально распределяют между оставшимися кодонами, которые кодируют аминокислоту X. Такой вариант осуществления изображен на фигуре 4 В. Удаленную совокупную частоту использования 16% распределили между оставшимися кодонами А, В, D и F пропорционально частоте использования оставшихся кодонов А, В, D и F. В этом примере соотношение частот использования кодонов А, В, D и F составляет 15: 20: 38: 11 или 0,18: 0,24: 0,45: 0,13. Кодон А получает 0,18 из 16% (3%), В получает 0,24 из 16% (4%), D получает 0,45 из 16% (7%) и F получает 0,13 из 16% (2%). Частоты использования кодонов аминокислоты X теперь нормализованы.[000120] In some embodiments, the removed cumulative usage rate is proportionally distributed among the remaining codons that encode amino acid X. Such an embodiment is depicted in Figure 4B. The removed cumulative usage rate of 16% is distributed among the remaining codons A, B, D, and F in proportion to the usage rate of the remaining codons A, B, D, and F. In this example, the ratio of codon usage rates of A, B, D, and F is 15:20:38:11, or 0.18:0.24:0.45:0.13. Codon A receives 0.18 of 16% (3%), B receives 0.24 of 16% (4%), D receives 0.45 of 16% (7%), and F receives 0.13 of 16% (2%). The codon usage rates of amino acid X are now normalized.
[000121] Таким образом, структура и содержание полученной таблицы частот использования кодонов или первой таблицы частот использования кодонов указывают на создание нормализованной таблицы частот использования кодонов. Количество кодонов, ассоциированных с каждой аминокислотой, определяет перераспределение частот использования удаленных кодонов, а сами частоты использования кодонов определяют то, какие кодоны удаляются, и, в некоторых вариантах осуществления, пропорциональность распределения.[000121] Thus, the structure and content of the resulting codon usage frequency table or the first codon usage frequency table indicate the creation of a normalized codon usage frequency table. The number of codons associated with each amino acid determines the redistribution of the frequencies of usage of the deleted codons, and the codon usage frequencies themselves determine which codons are deleted and, in some embodiments, the proportionality of the distribution.
Создание оптимизированной нуклеотидной последовательностиCreation of an optimized nucleotide sequence
[000122] Оптимизированную нуклеотидную последовательность создают путем выбора кодона для каждой аминокислоты в аминокислотной последовательности на основе частоты использования одного или более кодонов, ассоциированных с аминокислотой в нормализованной таблице частот использования кодонов. Оптимизированная нуклеотидная последовательность создается путем расположения выбранных кодонов в том порядке, в котором ассоциированная с ними аминокислота появляется в аминокислотной последовательности.[000122] An optimized nucleotide sequence is created by selecting a codon for each amino acid in the amino acid sequence based on the frequency of usage of one or more codons associated with the amino acid in a normalized codon frequency table. The optimized nucleotide sequence is created by arranging the selected codons in the order in which the amino acid associated with them appears in the amino acid sequence.
[000123] На фигуре 5 представлена иллюстрация создания оптимизированной нуклеотидной последовательности с использованием кодонов А, В, С, D, Е и F из фигур 3, 4А и 4В. Каждый кодон может быть представлен тремя нуклеотидами, на иллюстрации с фигуры 5 кодон А представлен нуклеотидами AAA, кодон В - нуклеотидами ВВВ и так далее.[000123] Figure 5 is an illustration of the creation of an optimized nucleotide sequence using codons A, B, C, D, E, and F from Figures 3, 4A, and 4B. Each codon can be represented by three nucleotides; in the illustration of Figure 5, codon A is represented by nucleotides AAA, codon B by nucleotides BBB, and so on.
[000124] Получают иллюстративную аминокислотную[000124] An illustrative amino acid sequence is obtained
последовательность X Y Y X X X. Для этого примера мы предполагаем, что аминокислоты X и Y ассоциированы с кодонами А, В, С, D, Е, F, G и Н, как определено в отношении фигур 3, 4А и 4В. В этом примере таблица частот использования кодонов на фигуре 3 была нормализована вероятностно, что привело к получению нормализованной таблицы частот использования кодонов на фигуре 4В. На стадии 501 для каждой аминокислоты выбирают кодон с вероятностью, равной частоте использования, ассоциированной с кодоном в нормализованной таблице частот использования кодонов. Например, для первой аминокислоты в последовательности, X, вероятность того, что будет выбран кодон А, составляет 18%, вероятность того, что будет выбран кодон В, составляет 24%, вероятность того, что будет выбран кодон D, составляет 45%, и вероятность того, что будет выбран кодон F, составляет 13%. Это связано с тем, что аминокислота X кодируется кодонами А, В, D и F и, таким образом, ассоциирована с этими кодонами в нормализованной таблице частот использования кодонов, поэтому кодон, выбранный для аминокислоты X, будет одним из кодонов А, В, D и F.sequence X Y Y X X X. For this example, we assume that amino acids X and Y are associated with codons A, B, C, D, E, F, G, and H, as defined with respect to Figures 3, 4A, and 4B. In this example, the codon usage frequency table in Figure 3 was probabilistically normalized, resulting in the normalized codon usage frequency table in Figure 4B. At step 501, for each amino acid, a codon is selected with a probability equal to the usage frequency associated with the codon in the normalized codon usage frequency table. For example, for the first amino acid in the sequence, X, the probability that codon A will be selected is 18%, the probability that codon B will be selected is 24%, the probability that codon D will be selected is 45%, and the probability that codon F will be selected is 13%. This is because amino acid X is encoded by codons A, B, D, and F, and is thus associated with these codons in the normalized codon usage table, so the codon chosen for amino acid X will be one of codons A, B, D, and F.
[000125] Этот процесс повторяют для каждой аминокислоты с использованием нормализованной таблицы частот использования кодонов, чтобы указать вероятность выбора определенного кодона. Таким образом, для второй аминокислоты в последовательности, Y, кодон G выбирают с вероятностью 60%, а кодон Н выбирают с вероятностью 4 0%. После выбора кодона для каждой аминокислоты полученная в результате последовательность кодонов, состоящая из нуклеотидов, может называться оптимизированной нуклеотидной последовательностью.[000125] This process is repeated for each amino acid using a normalized codon usage table to indicate the probability of selecting a particular codon. Thus, for the second amino acid in the sequence, Y, the G codon is selected with a probability of 60%, and the H codon is selected with a probability of 40%. After selecting a codon for each amino acid, the resulting codon sequence, consisting of nucleotides, can be called an optimized nucleotide sequence.
[000126] Фигура 5 является иллюстративной и предназначена только для помощи в понимании создания оптимизированных нуклеотидных последовательностей. На фигуре 5 может не показываться длина, состав или структура действительно полученной аминокислотной последовательности или оптимизированной нуклеотидной последовательности, она просто схематически иллюстрирует данный способ.[000126] Figure 5 is illustrative and is intended only to aid in understanding the creation of optimized nucleotide sequences. Figure 5 may not show the length, composition, or structure of the actual amino acid sequence or optimized nucleotide sequence obtained; it merely schematically illustrates the method.
Создание множества оптимизированных нуклеотидных последовательностейCreation of a set of optimized nucleotide sequences
[000127] Создание оптимизированной нуклеотидной последовательности с использованием аминокислотной последовательности и нормализованной таблицы частот использования кодонов может выполняться более одного раза для создания перечня оптимизированных нуклеотидных последовательностей.[000127] The creation of an optimized nucleotide sequence using the amino acid sequence and the normalized codon usage table may be performed more than once to create a list of optimized nucleotide sequences.
[000128] Перечень может включать любое количество различных оптимизированных нуклеотидных последовательностей, поскольку создание оптимизированной нуклеотидной последовательности основано на вероятностном выборе кодонов. Перечень может включать любое количество повторяющихся оптимизированных нуклеотидных последовательностей, т.е. идентичных оптимизированных нуклеотидных последовательностей, опять же, потому что создание оптимизированной нуклеотидной последовательности основано на вероятностном выборе заменяющих кодонов. Идентичные оптимизированные последовательности обычно удаляют при создании перечня оптимизированных нуклеотидных последовательностей.[000128] The list may include any number of different optimized nucleotide sequences, since the creation of an optimized nucleotide sequence is based on the probabilistic choice of codons. The list may include any number of repeated optimized nucleotide sequences, i.e., identical optimized nucleotide sequences, again, since the creation of an optimized nucleotide sequence is based on the probabilistic choice of replacement codons. Identical optimized sequences are typically removed when creating a list of optimized nucleotide sequences.
[000129] В некоторых вариантах осуществления одну или более или все оптимизированные нуклеотидные последовательности в перечне оптимизированных нуклеотидных последовательностей синтезируют для испытания путем трансфекции, применения в терапии или для любого другого применения синтезированной оптимизированной нуклеотидной последовательности, описанной в данном документе.[000129] In some embodiments, one or more or all of the optimized nucleotide sequences in the list of optimized nucleotide sequences are synthesized for testing by transfection, use in therapy, or for any other use of the synthesized optimized nucleotide sequence described herein.
Фильтрация перечня оптимизированных нуклеотидных последовательностейFiltering the list of optimized nucleotide sequences
[000130] Количество оптимизированных нуклеотидных последовательностей в перечне оптимизированных нуклеотидных последовательностей зависит по меньшей мере от длины и состава аминокислотной последовательности, значения пороговой частоты использования кодонов, состава первой таблицы частот использования кодонов и количества циклов проведения алгоритма оптимизации кодонов, т.е. количества раз создания оптимизированной нуклеотидной последовательности. Например, перечень оптимизированных нуклеотидных последовательностей может содержать 10000 оптимизированных нуклеотидных последовательностей или больше. Синтез и испытание каждой оптимизированной нуклеотидной последовательности из перечня в клетке, ткани или организме могут быть выгодными в некоторых ситуациях, например, для определенных входных параметров алгоритма, таких как относительно короткая аминокислотная последовательность. Точно так же это может быть невыгодно в определенных ситуациях, например, если необходимо уменьшить сложность компьютерного процесса или количество последовательностей, которые синтезируют и испытывают в клетке, ткани или организме. Поэтому может быть необходимым уменьшить количество оптимизированных нуклеотидных последовательностей в перечне нуклеотидных последовательностей, например, перед синтезом. Это может выгодно сократить время, необходимое для синтеза каждой последовательности в перечне, и ресурсы, необходимые для этого.[000130] The number of optimized nucleotide sequences in the list of optimized nucleotide sequences depends at least on the length and composition of the amino acid sequence, the value of the threshold codon usage frequency, the composition of the first table of codon usage frequencies, and the number of cycles of the codon optimization algorithm, i.e., the number of times the optimized nucleotide sequence is created. For example, the list of optimized nucleotide sequences may contain 10,000 optimized nucleotide sequences or more. Synthesizing and testing each optimized nucleotide sequence from the list in a cell, tissue, or organism may be advantageous in some situations, for example, for certain input parameters of the algorithm, such as a relatively short amino acid sequence. Likewise, this may be disadvantageous in certain situations, for example, if it is necessary to reduce the complexity of the computer process or the number of sequences that are synthesized and tested in a cell, tissue, or organism. Therefore, it may be necessary to reduce the number of optimized nucleotide sequences in the list of nucleotide sequences, for example, before synthesis. This could advantageously reduce the time required to synthesize each sequence in the list and the resources required to do so.
[000131] Соответственно, в типичном варианте осуществления одну или более дополнительных стадий алгоритма проводят в отношении перечня оптимизированных нуклеотидных последовательностей для фильтрации перечня или удаления оптимизированных нуклеотидных последовательностей из перечня. Одна или более дополнительных стадий алгоритма могут называться отбором мотивов, анализом содержания GC и анализом индекса адаптации кодонов (CAI). Следует понимать, что, хотя в данном документе подробно описаны конкретные дополнительные стадии алгоритма, они могут быть не единственными выполняемыми стадиями фильтрации, и могут выполняться дополнительные стадии для дальнейшей фильтрации перечня оптимизированных нуклеотидных последовательностей в рамках объема формулы настоящего изобретения.[000131] Accordingly, in an exemplary embodiment, one or more additional algorithm steps are performed on the list of optimized nucleotide sequences to filter the list or remove optimized nucleotide sequences from the list. The one or more additional algorithm steps may be referred to as motif selection, GC content analysis, and codon adaptation index (CAI) analysis. It should be understood that, although specific additional algorithm steps are described in detail herein, they may not be the only filtering steps performed, and additional steps may be performed to further filter the list of optimized nucleotide sequences within the scope of the claims of the present invention.
[000132] Авторы настоящего изобретения обнаружили, что эти дополнительные стадии алгоритма и ассоциированные с ними мотивы, диапазоны и пороговые значения предпочтительным образом фильтруют перечень оптимизированных нуклеотидных последовательностей путем удаления из перечня тех последовательностей, которые, вероятно, будут менее эффективными, чем последовательности, оставленные в перечне. Таким образом, фильтрация перечня не является просто произвольной. Другими словами, фильтрация перечня до определенного количества последовательностей с использованием способов, описанных в данном документе, приведет к получению обновленного перечня последовательностей, содержащего более эффективные последовательности, чем если бы такое же определенное количество последовательностей было выбрано из перечня случайным образом. Таким образом, эффективность и снижение сложности, достигаемые в процессе синтеза, достигаются не за счет потери большого количества эффективных оптимизированных нуклеотидных последовательностей. Например, оптимизированные нуклеотидные последовательности, созданные способами по настоящему изобретению, не содержат сигналов терминации. Отсутствие сигналов терминации облегчает синтез полноразмерных молекул мРНК из закодированных оптимизированных нуклеотидных последовательностей с использованием транскрипции in vitro. Наличие сигналов терминации приводит к преждевременной терминации транскрипции in vitro, поэтому фильтрация перечня с использованием описанных в данном документе способов обеспечивает обновленный перечень последовательностей, содержащий более эффективные последовательности.[000132] The inventors of the present invention have found that these additional algorithm steps and their associated motifs, ranges, and thresholds advantageously filter the list of optimized nucleotide sequences by removing from the list those sequences that are likely to be less effective than the sequences retained in the list. Thus, the filtering of the list is not simply arbitrary. In other words, filtering the list to a certain number of sequences using the methods described herein will result in an updated sequence list containing more effective sequences than if the same certain number of sequences were selected from the list at random. Thus, the efficiency and complexity reduction achieved in the synthesis process are not achieved at the expense of losing a large number of effective optimized nucleotide sequences. For example, the optimized nucleotide sequences generated by the methods of the present invention do not contain termination signals. The absence of termination signals facilitates the synthesis of full-length mRNA molecules from encoded optimized nucleotide sequences using in vitro transcription. The presence of termination signals leads to premature termination of transcription in vitro, so filtering the list using the methods described in this document provides an updated list of sequences containing more efficient sequences.
[000133] Фильтрация перечня оптимизированных нуклеотидных последовательностей может называться скринингом перечня оптимизированных нуклеотидных последовательностей для выявления и удаления оптимизированных нуклеотидных последовательностей, не соответствующих одному или более критериям. Каждый критерий может относиться к определенной дополнительной стадии алгоритма, как подробно описано в данном документе. Другими словами, критерии могут предусматривать: оптимизированную нуклеотидную последовательность, не содержащую сигнал терминации (первый критерий), оптимизированную нуклеотидную последовательность, характеризующуюся содержанием гуанина-цитозина в пределах предварительно заданного диапазона содержания гуанина-цитозина (второй критерий), оптимизированную нуклеотидную последовательность, имеющую индекс адаптации кодонов, превышающий предварительно заданное пороговое значение индекса адаптации кодонов (третий критерий), и оптимизированную нуклеотидную последовательность, не имеющую. Следует понимать, что нумерация используемых критериев предназначена только для ясности и не предназначена для ограничения порядка стадий, который более подробно описан в другом месте данного документа.[000133] Filtering the list of optimized nucleotide sequences may be referred to as screening the list of optimized nucleotide sequences to identify and remove optimized nucleotide sequences that do not meet one or more criteria. Each criterion may relate to a specific additional step of the algorithm, as described in detail herein. In other words, the criteria may include: an optimized nucleotide sequence that does not contain a termination signal (the first criterion), an optimized nucleotide sequence that has a guanine-cytosine content within a predetermined guanine-cytosine content range (the second criterion), an optimized nucleotide sequence that has a codon adaptation index that is greater than a predetermined codon adaptation index threshold (the third criterion), and an optimized nucleotide sequence that does not. It should be understood that the numbering of the criteria used is for clarity only and is not intended to limit the order of the steps, which is described in more detail elsewhere in this document.
[000134] Следует понимать, что, хотя в данном документе подробно описаны конкретные критерии, они могут быть не единственными критериями, в отношении которых подвергают скринингу оптимизированные нуклеотидные последовательности, и может проводиться скрининг в отношении дополнительных критериев для дальнейшей фильтрации перечня оптимизированных нуклеотидных последовательностей в рамках объема формулы настоящего изобретения.[000134] It should be understood that, although specific criteria are described in detail herein, they may not be the only criteria against which optimized nucleotide sequences are screened, and screening may be conducted against additional criteria to further filter the list of optimized nucleotide sequences within the scope of the claims of the present invention.
[000135] При скрининге каждой оптимизированной нуклеотидной последовательности оптимизированная нуклеотидная последовательность может быть проанализирована полностью до того, как будет определено, соответствует ли она критериям. В качестве альтернативы, каждую оптимизированную нуклеотидную последовательность можно анализировать по частям. Часть может называться окном.[000135] When screening each optimized nucleotide sequence, the optimized nucleotide sequence may be analyzed in its entirety before determining whether it meets the criteria. Alternatively, each optimized nucleotide sequence may be analyzed in portions. A portion may be referred to as a window.
[000136] Например, для оптимизированной нуклеотидной последовательности в перечне оптимизированных нуклеотидных последовательностей, имеющей длину 600 нуклеотидов, длина части может быть выбрана равной 30 нуклеотидам. Сначала можно проанализировать первые 30 нуклеотидов оптимизированной нуклеотидной последовательности на соответствие определенному критерию, т.е. нуклеотиды с 1 по 30 из оптимизированной нуклеотидной последовательности. Если первая часть не соответствует критерию, оптимизированную нуклеотидную последовательность можно удалить из перечня оптимизированных нуклеотидных последовательностей.[000136] For example, for an optimized nucleotide sequence in a list of optimized nucleotide sequences that is 600 nucleotides long, the length of the portion may be selected to be 30 nucleotides. The first 30 nucleotides of the optimized nucleotide sequence may first be analyzed for compliance with a certain criterion, i.e., nucleotides 1 through 30 of the optimized nucleotide sequence. If the first portion does not meet the criterion, the optimized nucleotide sequence may be removed from the list of optimized nucleotide sequences.
[000137] Если первая часть соответствует критерию, можно затем проанализировать с данной фильтрацией вторую часть оптимизированной нуклеотидной последовательности. В данном примере это могут быть вторые 30 нуклеотидов, т.е. нуклеотиды с 31 по 60 из оптимизированной нуклеотидной последовательности. Анализ частей можно повторять для каждой части до тех пор, пока либо: не будет найдена часть, не отвечающая критерию, и в этом случае оптимизированную нуклеотидную последовательность можно удалить из перечня, либо будет проанализирована вся оптимизированная нуклеотидная последовательность и ни одна такая часть не будет найдена, и в этом случае фильтрация сохраняет оптимизированную нуклеотидную последовательность в перечне и может перейти к следующей оптимизированной нуклеотидной последовательности в перечне. В этом примере, если фильтрация достигает последней части оптимизированной нуклеотидной последовательности, т.е. нуклеотидов с 571 по 600, и эта последняя часть удовлетворяет критерию, данная фильтрация сохраняет оптимизированную нуклеотидную последовательность в перечне и может перейти к следующей оптимизированной нуклеотидной последовательности в перечне. В качестве альтернативы и, в частности, каждая часть может иметь длину 100 нуклеотидов.[000137] If the first portion meets the criterion, the second portion of the optimized nucleotide sequence can then be analyzed with this filtering. In this example, this could be the second 30 nucleotides, i.e., nucleotides 31 through 60 of the optimized nucleotide sequence. The analysis of portions can be repeated for each portion until either: a portion that does not meet the criterion is found, in which case the optimized nucleotide sequence can be removed from the list, or the entire optimized nucleotide sequence is analyzed and no such portion is found, in which case the filtering keeps the optimized nucleotide sequence in the list and can move on to the next optimized nucleotide sequence in the list. In this example, if the filtering reaches the last portion of the optimized nucleotide sequence, i.e., If nucleotides 571 through 600 are found, and this last portion satisfies the criterion, this filtering retains the optimized nucleotide sequence in the list and can move on to the next optimized nucleotide sequence in the list. Alternatively, and specifically, each portion can be 100 nucleotides long.
[000138] Хотя в приведенном выше примере описана фильтрация по частям, начиная с первого нуклеотида и заканчивая последним нуклеотидом, следует понимать, что это только пример, и порядок, в котором анализируются части оптимизированной нуклеотидной последовательности, может быть любым порядком, очевидным для специалиста в данной области. Фильтрация может, например, начаться с части, включающей последний нуклеотид (в рабочем примере нуклеотид 600), и вернуться к первому нуклеотиду, нуклеотиду 1, или может начаться с части в любом положении между первым и последним нуклеотидами.[000138] Although the above example describes filtering in parts, starting from the first nucleotide and ending with the last nucleotide, it should be understood that this is only an example, and the order in which the parts of the optimized nucleotide sequence are analyzed can be any order obvious to a person skilled in the art. Filtering can, for example, start with the part including the last nucleotide (in the working example, nucleotide 600) and return to the first nucleotide, nucleotide 1, or it can start with a part at any position between the first and last nucleotides.
[000139] Может существовать первая, последняя или промежуточная часть оптимизированной нуклеотидной последовательности, длина которой отличается от длины других частей. Это может произойти, например, если длина в нуклеотидах оптимизированной нуклеотидной последовательности не делится точно на длину в нуклеотидах ее частей.[000139] There may be a first, last, or intermediate portion of an optimized nucleotide sequence whose length differs from the length of the other portions. This may occur, for example, if the length in nucleotides of the optimized nucleotide sequence is not exactly divisible by the length in nucleotides of its portions.
[000140] Как подробно описано в другом месте данного документа, анализ по частям может быть выгоден по меньшей мере для вычислительной эффективности, но также и для более эффективного выявления менее необходимых последовательностей, которые могут соответствовать критерию в среднем, но которые содержат участки, не соответствующие критерию, например пики или падения содержания GC или балла CAI.[000140] As discussed in detail elsewhere in this document, part-by-part analysis may be advantageous at least for computational efficiency, but also for more efficiently identifying less desirable sequences that may meet the criterion on average, but which contain regions that do not meet the criterion, such as peaks or dips in GC content or CAI score.
[000141] Оптимизированные нуклеотидные последовательности в перечне можно подвергать скринингу на соответствие одному или более критериям одним из двух способов: каждую последовательность можно подвергнуть скринингу по всем соответствующим критериям и удалить из перечня в случае несоответствия какому-либо из них; или, в частности, все последовательности в перечне можно подвергнуть скринингу в отношении определенных критериев, и сокращенный отфильтрованный перечень подвергнуть скринингу в отношении дополнительных представляющих интерес критериев.[000141] The optimized nucleotide sequences in the list may be screened for compliance with one or more criteria in one of two ways: each sequence may be screened for all relevant criteria and removed from the list if it fails to meet any of them; or, in particular, all sequences in the list may be screened for certain criteria and a reduced filtered list may be screened for additional criteria of interest.
Отбор мотивовSelection of motives
[000142] В некоторых вариантах осуществления к перечню оптимизированных нуклеотидных последовательностей можно применить фильтрацию на основе отбора мотивов. В таких вариантах осуществления перечень оптимизированных нуклеотидных последовательностей анализируют, чтобы определить, содержит ли каждая оптимизированная нуклеотидная последовательность в перечне сигнал терминации. Перечень оптимизированных нуклеотидных последовательностей может представлять собой перечень оптимизированных нуклеотидных последовательностей, первоначально созданных с помощью алгоритма оптимизации кодонов, или может представлять собой перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован на одной или более дополнительных стадиях алгоритма. Перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован или обновлен на одной или более дополнительных стадиях алгоритма, может называться обновленным перечнем или самым последним обновленным перечнем оптимизированных нуклеотидных последовательностей. Любую оптимизированную нуклеотидную последовательность, которая содержит один или более сигналов терминации, можно удалить из перечня с получением обновленного перечня.[000142] In some embodiments, motif-based filtering can be applied to the list of optimized nucleotide sequences. In such embodiments, the list of optimized nucleotide sequences is analyzed to determine whether each optimized nucleotide sequence in the list contains a termination signal. The list of optimized nucleotide sequences can be a list of optimized nucleotide sequences initially generated using a codon optimization algorithm, or can be a list of optimized nucleotide sequences that has already been filtered in one or more additional steps of the algorithm. A list of optimized nucleotide sequences that has already been filtered or updated in one or more additional steps of the algorithm can be referred to as an updated list or the most recently updated list of optimized nucleotide sequences. Any optimized nucleotide sequence that contains one or more termination signals can be removed from the list to obtain an updated list.
[000143] Ссылаясь на фигуру 6, сигнал терминации может иметь следующие нуклеотидные последовательности: 5'-X1ATCTX2TX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, Т или G; TATCTGTT; ТТТТТТ; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA; и/или 5'-X1AUCUX2UX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, U или G. С помощью фильтрации на основе отбора мотивов можно определить, содержит ли каждая оптимизированная нуклеотидная последовательность один, несколько или все эти сигналы терминации.[000143] Referring to Figure 6, the termination signal may have the following nucleotide sequences: 5'-X 1 ATCTX 2 TX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, T or G; TATCTGTT; TTTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA; and/or 5'-X 1 AUCUX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G. Motif selection filtering can determine whether each optimized nucleotide sequence contains one, more or all of these termination signals.
[000144] Каждую оптимизированную нуклеотидную последовательность можно проанализировать целиком, т.е. от первого нуклеотида в последовательности до последнего нуклеотида в последовательности. В конкретном варианте осуществления анализ определенной оптимизированной нуклеотидной последовательности можно остановить, когда в этой последовательности определено наличие сигнала терминации; затем эту последовательность можно удалить из перечня без анализа каждого ее нуклеотида. В конкретном варианте осуществления эту форму анализа можно применять к каждой оптимизированной нуклеотидной последовательности в перечне. Такой анализ может быть выгодным, поскольку в вычислительном отношении эффективно не анализировать полную последовательность, если присутствие сигнала терминации в этой последовательности уже определено.[000144] Each optimized nucleotide sequence can be analyzed in its entirety, i.e., from the first nucleotide in the sequence to the last nucleotide in the sequence. In a particular embodiment, the analysis of a particular optimized nucleotide sequence can be stopped when the presence of a termination signal in this sequence is determined; this sequence can then be removed from the list without analyzing each of its nucleotides. In a particular embodiment, this form of analysis can be applied to each optimized nucleotide sequence in the list. Such analysis can be advantageous since it is computationally efficient not to analyze the entire sequence if the presence of a termination signal in this sequence has already been determined.
[000145] Каждую оптимизированную нуклеотидную последовательность можно проанализировать по частям, как будет описано более подробно в отношении анализа содержания GC. Анализ оптимизированной нуклеотидной последовательности можно остановить после определения того, что часть содержит сигнал терминации. Это может быть выгодно, поскольку в вычислительном отношении эффективно не анализировать полную последовательность, если присутствие сигнала терминации в этой последовательности уже определено. Что касается последующего анализа содержания GC, части могут перекрываться или не перекрываться и могут иметь любую длину, например, от 5 до 300 нуклеотидов, или от 10 до 200 нуклеотидов, или от 15 до 100 нуклеотидов, или от 20 до 50 нуклеотидов, или, в частности, 30 нуклеотидов или 100 нуклеотидов. Каждая из частей оптимизированной нуклеотидной последовательности может быть одинаковой длины, или, например, первая, последняя или промежуточная часть оптимизированной нуклеотидной последовательности может иметь длину, отличную от других частей, например, если длина в нуклеотидах оптимизированной нуклеотидной последовательности не делится точно на длину в нуклеотидах этих частей.[000145] Each optimized nucleotide sequence can be analyzed in portions, as will be described in more detail with respect to the GC content analysis. The analysis of the optimized nucleotide sequence can be stopped after determining that a portion contains a termination signal. This can be advantageous since it is computationally efficient not to analyze the entire sequence if the presence of a termination signal in this sequence has already been determined. With respect to the subsequent GC content analysis, the portions may or may not overlap and may be of any length, for example, from 5 to 300 nucleotides, or from 10 to 200 nucleotides, or from 15 to 100 nucleotides, or from 20 to 50 nucleotides, or, in particular, 30 nucleotides or 100 nucleotides. Each of the parts of the optimized nucleotide sequence may be the same length, or, for example, the first, last, or intermediate part of the optimized nucleotide sequence may have a length that differs from the other parts, for example, if the length in nucleotides of the optimized nucleotide sequence is not exactly divisible by the length in nucleotides of these parts.
Анализ содержания GCGC content analysis
[000146] В некоторых вариантах осуществления к перечню оптимизированных нуклеотидных последовательностей можно применить фильтрацию на основе содержания гуанина-цитозина (GC). В таких вариантах осуществления перечень оптимизированных нуклеотидных последовательностей анализируют для определения содержания GC каждой из оптимизированных нуклеотидных последовательностей в перечне оптимизированных нуклеотидных последовательностей, где содержание GC последовательности представляет собой процент оснований в нуклеотидной последовательности, которые представляют собой гуанин (G) или цитозин (С). Перечень оптимизированных нуклеотидных последовательностей может представлять собой перечень оптимизированных нуклеотидных последовательностей, первоначально созданных с помощью алгоритма оптимизации кодонов, или может представлять собой перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован на одной или более дополнительных стадиях алгоритма. Перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован или обновлен на одной или более дополнительных стадиях алгоритма, может называться обновленным перечнем или самым последним обновленным перечнем оптимизированных нуклеотидных последовательностей. Любую оптимизированную нуклеотидную последовательность, содержание GC в которой выходит за пределы предварительно заданного диапазона содержания GC, можно удалить из перечня с получением обновленного перечня.[000146] In some embodiments, filtering based on guanine-cytosine (GC) content can be applied to the list of optimized nucleotide sequences. In such embodiments, the list of optimized nucleotide sequences is analyzed to determine the GC content of each of the optimized nucleotide sequences in the list of optimized nucleotide sequences, where the GC content of a sequence is the percentage of bases in a nucleotide sequence that are guanine (G) or cytosine (C). The list of optimized nucleotide sequences may be a list of optimized nucleotide sequences initially generated using a codon optimization algorithm, or may be a list of optimized nucleotide sequences that has already been filtered in one or more additional steps of the algorithm. A list of optimized nucleotide sequences that has already been filtered or updated in one or more additional steps of the algorithm may be referred to as an updated list or the most recently updated list of optimized nucleotide sequences. Any optimized nucleotide sequence whose GC content falls outside the pre-defined GC content range can be removed from the list to produce an updated list.
[000147] Каждую оптимизированную нуклеотидную последовательность можно проанализировать целиком, т.е. от первого нуклеотида в последовательности до последнего нуклеотида в последовательности. Затем можно определить содержание GC всей оптимизированной нуклеотидной последовательности и соответственно удалить последовательности.[000147] Each optimized nucleotide sequence can be analyzed in its entirety, i.e., from the first nucleotide in the sequence to the last nucleotide in the sequence. The GC content of the entire optimized nucleotide sequence can then be determined and sequences removed accordingly.
[000148] В некоторых вариантах осуществления анализируют только часть каждой оптимизированной нуклеотидной последовательности и определяют содержание GC в этой части. В таких вариантах осуществления, если содержание GC в анализируемой части выходит за пределы предварительно заданного диапазона содержания GC, оптимизированную нуклеотидную последовательность, содержащую эту часть, удаляют из перечня.[000148] In some embodiments, only a portion of each optimized nucleotide sequence is analyzed and the GC content of that portion is determined. In such embodiments, if the GC content of the analyzed portion is outside a predetermined GC content range, the optimized nucleotide sequence containing that portion is removed from the list.
[000149] В конкретном варианте осуществления фильтрацию на основе содержания GC применяют к каждой оптимизированной нуклеотидной последовательности по частям, при этом фильтрацию останавливают и последовательность удаляют, если определено, что часть характеризуется содержанием GC, выходящим за пределы заданного диапазона. Такой анализ может быть выгодным, поскольку в вычислительном отношении эффективно не анализировать полную последовательность, если уже было обнаружено присутствие части в этой последовательности, характеризующейся содержанием GC, выходящим за пределы предварительно заданного диапазона содержания GC.[000149] In a particular embodiment, GC content-based filtering is applied to each optimized nucleotide sequence in portions, with the filtering being stopped and the sequence being removed if a portion is determined to have a GC content outside a predetermined range. Such analysis may be advantageous because it is computationally efficient to not analyze the entire sequence if the presence of a portion in that sequence having a GC content outside a predetermined GC content range has already been detected.
[000150] В конкретном варианте осуществления части не перекрываются, однако в других вариантах осуществления части могут перекрываться. Следует понимать, что этот конкретный вариант осуществления можно выполнить с частью любой длины, например, от 5 до 300 нуклеотидов, или от 10 до 200 нуклеотидов, или от 15 до 100 нуклеотидов, или от 20 до 50 нуклеотидов, или, в частности, 30 нуклеотидов или 100 нуклеотидов. В некоторых вариантах осуществления предварительно заданный диапазон содержания GC может быть выбран пользователем. Также следует понимать, что этот конкретный вариант осуществления можно выполнить с любой длиной оптимизированной нуклеотидной последовательности.[000150] In a particular embodiment, the portions do not overlap, but in other embodiments, the portions may overlap. It should be understood that this particular embodiment can be performed with a portion of any length, such as from 5 to 300 nucleotides, or from 10 to 200 nucleotides, or from 15 to 100 nucleotides, or from 20 to 50 nucleotides, or, in particular, 30 nucleotides or 100 nucleotides. In some embodiments, a predetermined range of GC content can be selected by the user. It should also be understood that this particular embodiment can be performed with any length of the optimized nucleotide sequence.
[000151] Например, анализ содержания гуанина-цитозина (GC) неоптимизированных и оптимизированных нуклеотидных последовательностей можно проводить на частях нуклеотидной последовательности, кодирующей ЕРО, где содержание гуанина-цитозина (GC) частей нуклеотидной последовательности, кодирующей ЕРО, определяют для смежных неперекрывающихся частей длиной 30 нуклеотидов. Этот иллюстративный анализ изображен на фигуре 11.[000151] For example, an analysis of the guanine-cytosine (GC) content of non-optimized and optimized nucleotide sequences can be performed on portions of the nucleotide sequence encoding EPO, where the guanine-cytosine (GC) content of portions of the nucleotide sequence encoding EPO is determined for contiguous, non-overlapping portions of 30 nucleotides in length. This illustrative analysis is depicted in Figure 11.
[000152] В данном документе описана иллюстративная фильтрация на основе содержания GC. Для любого специалиста в данной области техники будет очевидно, что это только пример, и что описанные в данном документе способы можно выполнить с оптимизированной нуклеотидной последовательностью и/или частью любой длины. Например, для оптимизированной нуклеотидной последовательности в перечне оптимизированных нуклеотидных последовательностей, имеющей длину 600 нуклеотидов, длина части может быть выбрана равной 30 нуклеотидам. При фильтрации на основе содержания GC можно сначала анализировать первые 30 нуклеотидов оптимизированной нуклеотидной последовательности, то есть нуклеотиды с 1 по 30 оптимизированной нуклеотидной последовательности. Анализ может включать определение количества нуклеотидов в части, содержащей либо G, либо С, а определение содержания GC в части может предусматривать деление количества нуклеотидов G или С в части на общее количество нуклеотидов в части. Результат этого анализа будет давать значение, описывающее долю нуклеотидов в части, которые являются G или С, и может представлять собой процент, например 50%, или десятичную дробь, например 0,5. Если содержание GC в первой части выходит за пределы предварительно заданного диапазона содержания GC, оптимизированную нуклеотидную последовательность можно удалить из перечня оптимизированных нуклеотидных последовательностей.[000152] This document describes an exemplary filtering based on GC content. It will be obvious to anyone skilled in the art that this is only an example, and that the methods described herein can be performed with an optimized nucleotide sequence and/or a portion of any length. For example, for an optimized nucleotide sequence in a list of optimized nucleotide sequences that has a length of 600 nucleotides, the length of the portion can be selected equal to 30 nucleotides. When filtering based on GC content, the first 30 nucleotides of the optimized nucleotide sequence, i.e., nucleotides 1 through 30 of the optimized nucleotide sequence, can be analyzed first. The analysis can include determining the number of nucleotides in the portion containing either G or C, and determining the GC content of the portion can involve dividing the number of G or C nucleotides in the portion by the total number of nucleotides in the portion. The result of this analysis will yield a value describing the proportion of nucleotides in the portion that are G or C, and can be a percentage, such as 50%, or a decimal fraction, such as 0.5. If the GC content of the first portion falls outside the predetermined GC content range, the optimized nucleotide sequence can be removed from the list of optimized nucleotide sequences.
[000153] Если содержание GC в первой части попадает в заданный диапазон содержания GC, можно затем проанализировать с фильтрацией на основе содержания GC вторую часть оптимизированной нуклеотидной последовательности. В данном примере это могут быть вторые 30 нуклеотидов, т.е. нуклеотиды с 31 по 60 из оптимизированной нуклеотидной последовательности. Анализ частей можно повторять для каждой части до тех пор, пока либо: не будет найдена часть, характеризующаяся содержанием GC, выходящим за пределы предварительно заданного диапазона содержания GC, и в этом случае оптимизированную нуклеотидную последовательность можно удалить из перечня, либо будет проанализирована вся оптимизированная нуклеотидная последовательность и ни одна такая часть не будет найдена, и в этом случае фильтрация на основе содержания GC сохраняет оптимизированную нуклеотидную последовательность в перечне и может перейти к следующей оптимизированной нуклеотидной последовательности в перечне. В этом примере, если фильтрация на основе содержания GC достигает последней части оптимизированной нуклеотидной последовательности, т.е. нуклеотидов с 571 по 600, и в этой последней части содержание GC попадает в заданный диапазон содержания GC, фильтрация на основе содержания GC сохраняет оптимизированную нуклеотидную последовательность в перечне и может перейти к следующей оптимизированной нуклеотидной последовательности в перечне. В качестве альтернативы и, в частности, каждая часть может иметь длину 100 нуклеотидов.[000153] If the GC content of the first portion falls within a predetermined GC content range, the second portion of the optimized nucleotide sequence may then be analyzed using GC content filtering. In this example, this may be the second 30 nucleotides, i.e., nucleotides 31 through 60 of the optimized nucleotide sequence. The analysis of the portions may be repeated for each portion until either: a portion characterized by a GC content outside the predetermined GC content range is found, in which case the optimized nucleotide sequence may be removed from the list, or the entire optimized nucleotide sequence is analyzed and no such portion is found, in which case GC content filtering keeps the optimized nucleotide sequence in the list and may move on to the next optimized nucleotide sequence in the list. In this example, if GC content filtering reaches the last portion of the optimized nucleotide sequence, i.e., If the GC content of this last portion falls within the specified GC content range, GC content-based filtering retains the optimized nucleotide sequence in the list and can move on to the next optimized nucleotide sequence in the list. Alternatively, and specifically, each portion can be 100 nucleotides long.
[000154] Хотя в приведенном выше примере описана фильтрация по частям на основе содержания GC, начиная с первого нуклеотида и заканчивая последним нуклеотидом, следует понимать, что это только пример, и порядок, в котором анализируют части оптимизированной нуклеотидной последовательности, может быть любым порядком, очевидным для специалиста в данной области. Фильтрация на основе содержания GC может, например, начаться с части, включающей последний нуклеотид (в рабочем примере нуклеотид 600), и вернуться к первому нуклеотиду, нуклеотиду 1, или может начаться с части в любом положении между первым и последним нуклеотидами.[000154] Although the above example describes filtering by portions based on GC content, starting from the first nucleotide and ending with the last nucleotide, it should be understood that this is only an example, and the order in which the portions of the optimized nucleotide sequence are analyzed can be any order obvious to one skilled in the art. Filtering based on GC content can, for example, start with the portion including the last nucleotide (in the working example, nucleotide 600) and return to the first nucleotide, nucleotide 1, or can start with the portion at any position between the first and last nucleotides.
[000155] Может существовать первая, последняя или промежуточная часть оптимизированной нуклеотидной последовательности, длина которой отличается от длины других частей. Это может произойти, например, если длина в нуклеотидах оптимизированной нуклеотидной последовательности не делится точно на длину в нуклеотидах ее частей.[000155] There may be a first, last, or intermediate portion of an optimized nucleotide sequence whose length differs from the length of the other portions. This may occur, for example, if the length in nucleotides of the optimized nucleotide sequence is not exactly divisible by the length in nucleotides of its portions.
Анализ индекса адаптации кодонов (CAI)Codon Adaptation Index (CAI) analysis
[000156] В некоторых вариантах осуществления анализ индекса адаптации кодонов (CAI) можно выполнить для некоторых или всех оптимизированных нуклеотидных последовательностей в перечне оптимизированных нуклеотидных последовательностей. В таких вариантах осуществления одну или более оптимизированных нуклеотидных последовательностей в перечне оптимизированных нуклеотидных последовательностей анализируют для определения CAI каждой последовательности, где CAI представляет собой меру предпочтения частоты использования кодона и может принимать значение от 0 до 1. Перечень оптимизированных нуклеотидных последовательностей может представлять собой перечень оптимизированных нуклеотидных последовательностей, первоначально созданных с помощью алгоритма оптимизации кодонов, или может представлять собой перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован на одной или более дополнительных стадиях алгоритма. Перечень оптимизированных нуклеотидных последовательностей, который уже был отфильтрован или обновлен на одной или более дополнительных стадиях алгоритма, может называться обновленным перечнем или самым последним обновленным перечнем оптимизированных нуклеотидных последовательностей. Любую оптимизированную нуклеотидную последовательность, имеющую CAI, меньший или равный заданному пороговому значению CAI, можно удалить из перечня с получением обновленного перечня.[000156] In some embodiments, a codon adaptation index (CAI) analysis can be performed for some or all of the optimized nucleotide sequences in a list of optimized nucleotide sequences. In such embodiments, one or more optimized nucleotide sequences in the list of optimized nucleotide sequences are analyzed to determine the CAI of each sequence, where the CAI is a measure of codon usage preference and can have a value from 0 to 1. The list of optimized nucleotide sequences can be a list of optimized nucleotide sequences initially generated using a codon optimization algorithm, or can be a list of optimized nucleotide sequences that has already been filtered in one or more additional steps of the algorithm. A list of optimized nucleotide sequences that has already been filtered or updated in one or more additional steps of the algorithm can be referred to as an updated list or the most recently updated list of optimized nucleotide sequences. Any optimized nucleotide sequence that has a CAI less than or equal to a given CAI threshold can be removed from the list to produce an updated list.
[000157] В некоторых вариантах осуществления пороговое значение CAI выбирает пользователь. В некоторых вариантах осуществления пороговое значение CAI составляет 0,7, 0,75, 0,85 или 0,9. В конкретном варианте осуществления пороговое значение CAI составляет 0,8.[000157] In some embodiments, the CAI threshold is selected by the user. In some embodiments, the CAI threshold is 0.7, 0.75, 0.85, or 0.9. In a particular embodiment, the CAI threshold is 0.8.
[000158] CAI можно рассчитать для каждой оптимизированной нуклеотидной последовательности любым способом, очевидным для специалиста в данной области, например, как описано в «The codon adaptation index--a measure of directional synonymous codon usage bias, and its potential applications» (Sharp and Li, 1987. Nucleic Acids Research 15(3), p.1281-1295); доступной по адресу https://www.ncbi.nlm.nih.gov/pmc/articles/PMC34052 4/.[000158] The CAI can be calculated for each optimized nucleotide sequence in any manner obvious to one skilled in the art, for example, as described in "The codon adaptation index—a measure of directional synonymous codon usage bias, and its potential applications" (Sharp and Li, 1987. Nucleic Acids Research 15(3), p.1281-1295); available at https://www.ncbi.nlm.nih.gov/pmc/articles/PMC34052 4/.
[000159] Реализация расчета индекса адаптации кодонов может включать способ, соответствующий или аналогичный следующему. Для каждой аминокислоты в последовательности вес каждого кодона в последовательности может быть представлен параметром, называемым относительной адаптивностью (Wi). Относительную адаптивность можно рассчитать по набору эталонных последовательностей как отношение между наблюдаемой частотой кодона fi и частотой наиболее часто встречающегося синонимичного кодона fj для этой аминокислоты. Затем можно рассчитать индекс адаптации кодонов последовательности как среднее геометрическое веса, ассоциированного с каждым кодоном, по длине последовательности (измеряемой в кодонах). Набор эталонных последовательностей, используемый для расчета индекса адаптации кодонов, может быть тем же самым набором эталонных последовательностей, на основании которого получена таблица частот использования кодонов, применяемая в способах по настоящему изобретению.[000159] The implementation of calculating the codon adaptation index may include a method corresponding to or similar to the following. For each amino acid in a sequence, the weight of each codon in the sequence may be represented by a parameter called the relative adaptivity (W i ). The relative adaptivity may be calculated from a set of reference sequences as the ratio between the observed codon frequency f i and the frequency of the most frequently occurring synonymous codon f j for this amino acid. The codon adaptation index of the sequence may then be calculated as the geometric mean of the weight associated with each codon over the length of the sequence (measured in codons). The set of reference sequences used to calculate the codon adaptation index may be the same set of reference sequences from which the codon usage frequency table used in the methods of the present invention is derived.
[000160] Как отмечалось ранее, фильтрацию на основе анализа CAI можно применять как анализ по частям, как подробно описано в данном документе. Другими словами, можно определить меру CAI для частей каждой оптимизированной нуклеотидной последовательности и удалить последовательность из рассмотрения (т.е. удалить из перечня), если CAI какой-либо части равен заданному пороговому значению CAI или меньше. Такое выполнение способа обеспечивает как повышенную вычислительную эффективность, так и более селективную фильтрацию.[000160] As noted previously, filtering based on CAI analysis can be applied as a part-by-part analysis, as described in detail herein. In other words, a CAI measure can be determined for parts of each optimized nucleotide sequence, and a sequence can be removed from consideration (i.e., removed from the list) if the CAI of any part is equal to or less than a specified CAI threshold. This implementation of the method provides both increased computational efficiency and more selective filtering.
Объединение дополнительных стадий алгоритмаCombining additional stages of the algorithm
[000161] На фигуре 7 изображено, что к перечню оптимизированных нуклеотидных последовательностей можно применить одну, две или три из фильтрации на основе отбора мотивов, фильтрации на основе анализа содержания GC и фильтрации на основе анализа CAI, и в любом порядке, или ни одну из них. Поскольку каждая фильтрация, примененная к одному и тому же перечню оптимизированных нуклеотидных последовательностей и с теми же входными параметрами, оказывает одинаковый эффект на перечень, каждую фильтрацию можно использовать только один раз. Например, если к перечню оптимизированных нуклеотидных последовательностей применили фильтрацию на основе отбора мотивов и фильтрацию на основе анализа содержания GC, применение дополнительной фильтрации на основе отбора мотивов или дополнительной фильтрации на основе анализа содержания GC к обновленному перечню оптимизированных нуклеотидных последовательностей не имело бы никакого эффекта. Это связано с тем, что любые последовательности в перечне, не отвечающие требованиям любой из этих фильтраций, уже удалены. На фигуре 7 также показано, что есть варианты осуществления настоящего изобретения, в которых не применяют фильтрацию к перечню оптимизированных нуклеотидных последовательностей.[000161] Figure 7 shows that one, two, or three of the filtering based on motif selection, filtering based on GC content analysis, and filtering based on CAI analysis, and in any order, or none of them, can be applied to the list of optimized nucleotide sequences. Since each filtering applied to the same list of optimized nucleotide sequences and with the same input parameters has the same effect on the list, each filtering can be used only once. For example, if filtering based on motif selection and filtering based on GC content analysis were applied to the list of optimized nucleotide sequences, applying additional filtering based on motif selection or additional filtering based on GC content analysis to the updated list of optimized nucleotide sequences would have no effect. This is because any sequences in the list that do not meet the requirements of any of these filters have already been removed. Figure 7 also shows that there are embodiments of the present invention in which no filtering is applied to the list of optimized nucleotide sequences.
[000162] На фигуре 8 изображен вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применяют только одну фильтрацию. В этом варианте осуществления была выбрана фильтрация на основе анализа содержания GC, однако будет очевидно, что это является примером, и что если необходима только одна фильтрация, в качестве альтернативы можно выбрать фильтрацию на основе отбора мотивов или фильтрацию на основе CAI.[000162] Figure 8 depicts an embodiment of the present invention in which only one filtering is applied to the list of optimized nucleotide sequences. In this embodiment, filtering based on GC content analysis was selected, however, it will be clear that this is an example, and that if only one filtering is needed, filtering based on motif selection or filtering based on CAI can be selected as an alternative.
[000163] На фигуре 9 изображен вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применяют только две фильтрации. В этом варианте осуществления применили фильтрацию на основе отбора мотивов и фильтрацию на основе анализа CAI в указанном порядке, однако будет очевидно, что это является примером, и что, если желательны только две фильтрации, любые две из фильтрации на основе отбора мотивов, фильтрации на основе содержания GC и фильтрации на основе анализа CAI можно применить в любом порядке. В примере на фигуре 9 к перечню оптимизированных нуклеотидных последовательностей применяют фильтрацию на основе отбора мотивов с получением обновленного перечня оптимизированных нуклеотидных последовательностей. Прежде чем обновленный перечень оптимизированных нуклеотидных последовательностей будет дополнительно отфильтрован с помощью фильтрации на основе анализа CAI, этот перечень может называться самым последним обновленным перечнем оптимизированных нуклеотидных последовательностей. Затем фильтрацию на основе анализа CAI применяют к самому последнему обновленному перечню оптимизированных нуклеотидных последовательностей с получением обновленного или дополнительно обновленного перечня оптимизированных нуклеотидных последовательностей.[000163] Figure 9 depicts an embodiment of the present invention in which only two filters are applied to the list of optimized nucleotide sequences. In this embodiment, motif selection-based filtering and CAI analysis-based filtering were applied in the order shown, however, it will be understood that this is an example and that if only two filters are desired, any two of motif selection-based filtering, GC content-based filtering, and CAI analysis-based filtering can be applied in any order. In the example of Figure 9, motif selection-based filtering is applied to the list of optimized nucleotide sequences to obtain an updated list of optimized nucleotide sequences. Before the updated list of optimized nucleotide sequences is further filtered using CAI analysis-based filtering, this list may be referred to as the most recently updated list of optimized nucleotide sequences. The CAI analysis-based filtering is then applied to the most recently updated list of optimized nucleotide sequences to produce an updated or further updated list of optimized nucleotide sequences.
[000164] На фигуре 10 изображен конкретный вариант осуществления настоящего изобретения, в котором к перечню оптимизированных нуклеотидных последовательностей применяют три фильтрации. В этом конкретном варианте осуществления фильтрацию на основе отбора мотивов, фильтрацию на основе анализа содержания GC и фильтрацию на основе анализа CAI применили в указанном порядке с получением обновленного перечня оптимизированных нуклеотидных последовательностей. Будет очевидно, что в альтернативных вариантах осуществления, использующих три фильтрации, фильтрацию на основе отбора мотивов, фильтрацию на основе анализа содержания GC и фильтрацию на основе анализа CAI можно применять в любом порядке. Аналогично фигуре 9, после каждой стадии фильтрации, т.е. между фильтрациями на основе отбора мотивов и анализа содержания GC, а также между фильтрациями на основе анализа содержания GC и анализа CAI, перечень оптимизированных нуклеотидных последовательностей может называться последним обновленным перечнем оптимизированных нуклеотидных последовательностей (не показаны на фигуре 10). Как и в иллюстративных вариантах осуществления, показанных на фигурах 8 и 9, последовательности из обновленного перечня оптимизированных нуклеотидных последовательностей, полученных в конце любой и всех стадий фильтрации, затем можно синтезировать в соответствии с любым из способов синтеза, описанных в данном документе.[000164] Figure 10 depicts a specific embodiment of the present invention in which three filters are applied to a list of optimized nucleotide sequences. In this specific embodiment, filtering based on motif selection, filtering based on GC content analysis, and filtering based on CAI analysis were applied in that order to obtain an updated list of optimized nucleotide sequences. It will be appreciated that in alternative embodiments using three filters, filtering based on motif selection, filtering based on GC content analysis, and filtering based on CAI analysis can be applied in any order. Similar to Figure 9, after each filtering step, i.e., between filtering based on motif selection and GC content analysis, and between filtering based on GC content analysis and CAI analysis, the list of optimized nucleotide sequences may be referred to as the latest updated list of optimized nucleotide sequences (not shown in Figure 10). As in the illustrative embodiments shown in Figures 8 and 9, the sequences from the updated list of optimized nucleotide sequences obtained at the end of any and all filtering steps can then be synthesized according to any of the synthetic methods described herein.
[000165] Фильтрация с более чем одной из дополнительных стадий алгоритма может иметь синергический выгодный эффект. Это достигается тем, что входными данными для каждой дополнительной стадии алгоритма является самый последний обновленный перечень оптимизированных нуклеотидных последовательностей, т.е. может быть перечнем последовательностей, которые уже были отфильтрованы. Это снижает требования к обработке и времени для выполнения дополнительной стадии фильтрации, поскольку в перечне не так много последовательностей для анализа, что повышает эффективность способа.[000165] Filtering with more than one additional algorithm stage can have a synergistic beneficial effect. This is achieved by having the input data for each additional algorithm stage be the most recently updated list of optimized nucleotide sequences, i.e., it can be a list of sequences that have already been filtered. This reduces the processing and time requirements for performing the additional filtering stage, since there are fewer sequences to analyze in the list, increasing the efficiency of the method.
Смежные идентичные кодоныAdjacent identical codons
[000166] В некоторых вариантах осуществления некоторые или все оптимизированные нуклеотидные последовательности в перечне оптимизированных нуклеотидных последовательностей можно проанализировать для определения оптимизированных нуклеотидных последовательностей, имеющих по меньшей мере 2, например 3 или более смежных идентичных кодонов. Эта дополнительная стадия алгоритма может быть единственной дополнительной стадией алгоритма или может выполняться до или после одного или более из отбора мотивов, анализа содержания GC и анализа CAI. Анализ можно проводить для каждой оптимизированной нуклеотидной последовательности по частям, как подробно описано в данном документе.[000166] In some embodiments, some or all of the optimized nucleotide sequences in the list of optimized nucleotide sequences can be analyzed to determine optimized nucleotide sequences that have at least 2, such as 3 or more contiguous identical codons. This additional step of the algorithm can be the only additional step of the algorithm or can be performed before or after one or more of motif selection, GC content analysis, and CAI analysis. The analysis can be performed for each optimized nucleotide sequence in parts, as described in detail herein.
[000167] Например, можно проанализировать определенную оптимизированную нуклеотидную последовательность и определить, что она содержит участок, включающий: CAGCAGCAG. Такой участок, включающий определенный повторяющийся кодон, может остановить транскрипцию, поэтому последовательность удаляют из перечня.[000167] For example, a particular optimized nucleotide sequence may be analyzed and determined to contain a region including: CAGCAGCAG. Such a region, including a particular repeating codon, may stop transcription, so the sequence is removed from the list.
[000168] В некоторых вариантах осуществления пороговое значение редкости смежности используют для определения редких кодонов, где кодоны с показателем ниже порогового значения редкости смежности считаются редкими кодонами. Редкие кодоны можно идентифицировать путем сравнения частот использования в нормализованной таблице частот использования кодонов с пороговым значением редкости смежности. Таким образом, с помощью порогового значения редкости смежности идентифицируют кодоны, частота использования которых превышает пороговую частоту, чтобы их можно было включить в нормализованную таблицу частот использования кодонов, но, тем не менее, они относительно редки среди кодонов в нормализованной таблице частот использования кодонов. В некоторых вариантах осуществления только редкие смежные идентичные кодоны вызывают удаление оптимизированной нуклеотидной последовательности из перечня оптимизированных нуклеотидных последовательностей.[000168] In some embodiments, a contiguity rarity threshold is used to determine rare codons, where codons with a value below the contiguity rarity threshold are considered rare codons. Rare codons can be identified by comparing the usage frequencies in a normalized codon usage frequency table with the contiguity rarity threshold. Thus, using the contiguity rarity threshold, codons are identified whose usage frequency exceeds the threshold frequency so that they can be included in the normalized codon usage frequency table, but, nevertheless, they are relatively rare among the codons in the normalized codon usage frequency table. In some embodiments, only rare contiguous identical codons cause the removal of the optimized nucleotide sequence from the list of optimized nucleotide sequences.
[000169] Пороговое значение редкости смежности может составлять от 10 до 50%, например, от 15 до 40%, например, от 20 до 30%, и будет зависеть от пороговой частоты, используемой для нормализации таблицы частот использования кодонов. Пороговое значение редкости смежности должно быть больше, чем пороговая частота, чтобы иметь эффект, поскольку любой кодон с частотой использования ниже пороговой частоты не будет отображаться в нормализованной таблице частот использования кодонов.[000169] The contiguity rarity threshold may range from 10 to 50%, for example, from 15 to 40%, for example, from 20 to 30%, and will depend on the cutoff frequency used to normalize the codon usage frequency table. The contiguity rarity threshold must be greater than the cutoff frequency to have an effect, since any codon with a usage frequency below the cutoff frequency will not appear in the normalized codon usage frequency table.
[000170] Используя тот же пример, что и выше, но с фильтрацией только в отношении редких смежных идентичных кодонов, если CAG появляется в нормализованной таблице частот использования кодонов с частотой, равной или превышающей пороговое значение редкости смежности, последовательность, содержащая CAGCAGCAG, не будет удалена из перечня. Если вместо этого CAG появляется в нормализованной таблице частот использования кодонов с частотой меньше, чем пороговое значение редкости смежности, последовательность, содержащая CAGCAGCAG, будет удалена из перечня.[000170] Using the same example as above, but filtering only for rare contiguous identical codons, if CAG appears in the normalized codon usage table with a frequency equal to or greater than the contiguous rarity threshold, the sequence containing CAGCAGCAG will not be removed from the list. If instead CAG appears in the normalized codon usage table with a frequency less than the contiguous rarity threshold, the sequence containing CAGCAGCAG will be removed from the list.
[000171] Фильтрацию в отношении смежных идентичных кодонов, в том числе, необязательно, в отношении редких смежных идентичных кодонов, можно применять на любой стадии после создания перечня оптимизированных нуклеотидных последовательностей. Другими словами, фильтрацию в отношении смежных идентичных кодонов, в том числе, необязательно, в отношении редких смежных идентичных кодонов, можно применять с любой другой дополнительной стадией алгоритма, при этом стадии выполняют в любом порядке.[000171] Filtering for adjacent identical codons, including, optionally, for rare adjacent identical codons, may be applied at any stage after the creation of the list of optimized nucleotide sequences. In other words, filtering for adjacent identical codons, including, optionally, for rare adjacent identical codons, may be applied with any other additional stage of the algorithm, and the stages are performed in any order.
Синтез и экспрессия оптимизированных нуклеотидных последовательностейSynthesis and expression of optimized nucleotide sequences
[000172] В дополнительном аспекте настоящее изобретение предусматривает способ синтеза нуклеотидной последовательности, включающий: выполнение компьютеризированного способа по настоящему изобретению для создания по меньшей мере одной оптимизированной нуклеотидной последовательности; и синтез по меньшей мере одной из созданных оптимизированных нуклеотидных последовательностей. Синтез in vitro (также обычно называемый «транскрипцией in vitro») обычно проводят с помощью вектора нуклеиновой кислоты, такого как линейная или кольцевая ДНК-матрица, содержащая промотор, пул рибонуклеотидтрифосфатов, буферную систему, которая может включать DTT и ионы магния, и подходящую РНК-полимеразу (например, РНК-полимеразу Т3, Т7 или SP6), ДНКазу I, пирофосфатазу и/или ингибитор РНКазы. Точные условия будут варьироваться в зависимости от конкретного применения.[000172] In a further aspect, the present invention provides a method for synthesizing a nucleotide sequence, comprising: performing a computerized method of the present invention to generate at least one optimized nucleotide sequence; and synthesizing at least one of the generated optimized nucleotide sequences. In vitro synthesis (also commonly referred to as "in vitro transcription") is typically performed using a nucleic acid vector, such as a linear or circular DNA template containing a promoter, a pool of ribonucleotide triphosphates, a buffer system that may include DTT and magnesium ions, and a suitable RNA polymerase (e.g., T3, T7, or SP6 RNA polymerase), DNase I, pyrophosphatase, and/or RNase inhibitor. The exact conditions will vary depending on the specific application.
[000173] В некоторых вариантах осуществления синтезированную оптимизированную нуклеотидную последовательность, созданную согласно способу по настоящему изобретению, встраивают в вектор нуклеиновой кислоты для применения в транскрипции in vitro. В некоторых вариантах осуществления вектор нуклеиновой кислоты представляет собой плазмиду. Термин «плазмида» или «вектор нуклеиновой кислоты на основе плазмиды» относится к кольцевой молекуле нуклеиновой кислоты, например, к молекуле искусственной нуклеиновой кислоты. Плазмидная ДНК в контексте настоящего изобретения подходит для включения или содержания необходимой последовательности нуклеиновой кислоты, такой как последовательность нуклеиновой кислоты, содержащая последовательность, кодирующую транскрипт мРНК и/или открытую рамку считывания, кодирующую по меньшей мере один белок, полипептид или пептид. Такие конструкции/векторы на основе плазмидной ДНК могут представлять собой векторы экспрессии, векторы клонирования, векторы для переноса и т.д.[000173] In some embodiments, the synthesized optimized nucleotide sequence generated according to the method of the present invention is inserted into a nucleic acid vector for use in in vitro transcription. In some embodiments, the nucleic acid vector is a plasmid. The term "plasmid" or "plasmid-based nucleic acid vector" refers to a circular nucleic acid molecule, such as an artificial nucleic acid molecule. Plasmid DNA in the context of the present invention is suitable for including or containing a desired nucleic acid sequence, such as a nucleic acid sequence comprising a sequence encoding an mRNA transcript and/or an open reading frame encoding at least one protein, polypeptide, or peptide. Such plasmid DNA-based constructs/vectors may be expression vectors, cloning vectors, transfer vectors, etc.
[000174] Вектор нуклеиновой кислоты обычно содержит последовательность, соответствующую (кодирующую его) желаемому транскрипту мРНК или его части, такой как последовательность, соответствующая открытой рамке считывания и 5'- и/или 3'-UTR из мРНК. В некоторых вариантах осуществления последовательность, соответствующая необходимому транскрипту мРНК, может также кодировать поли(А)-хвост после 3'-UTR, так что поли(А)-хвост включается в транскрипт мРНК. Более типично в контексте настоящего изобретения последовательность, соответствующая необходимому транскрипту мРНК, состоит из 5'/3'-UTR и открытой рамки считывания. В некоторых вариантах осуществления настоящего изобретения транскрипт мРНК, синтезированный из вектора нуклеиновой кислоты во время транскрипции in vitro, не содержит поли(А)-хвост. Поли(А)-хвост может быть добавлен к транскрипту мРНК на стадии процессинга после синтеза.[000174] A nucleic acid vector typically comprises a sequence corresponding to (encoding for) a desired mRNA transcript or a portion thereof, such as a sequence corresponding to an open reading frame and 5' and/or 3' UTR of the mRNA. In some embodiments, the sequence corresponding to the desired mRNA transcript may also encode a poly(A) tail after the 3' UTR, so that the poly(A) tail is included in the mRNA transcript. More typically, in the context of the present invention, the sequence corresponding to the desired mRNA transcript consists of a 5'/3' UTR and an open reading frame. In some embodiments of the present invention, the mRNA transcript synthesized from the nucleic acid vector during in vitro transcription does not comprise a poly(A) tail. The poly(A) tail can be added to the mRNA transcript during a processing step after synthesis.
[000175] В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит нуклеотидную последовательность, кодирующую 5'-UTR, функционально связанную с оптимизированной нуклеотидной последовательностью. В конкретных вариантах осуществления 5'-UTR отличается от 5'-UTR встречающейся в природе мРНК, кодирующей аминокислотную последовательность. В конкретном варианте осуществления 5'-UTR имеет нуклеотидную последовательность под SEQ ID NO: 19.[000175] In some embodiments, the nucleic acid vector comprises a nucleotide sequence encoding a 5'-UTR operably linked to an optimized nucleotide sequence. In specific embodiments, the 5'-UTR differs from the 5'-UTR of a naturally occurring mRNA encoding an amino acid sequence. In a specific embodiment, the 5'-UTR has the nucleotide sequence of SEQ ID NO: 19.
[000176] В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит нуклеотидную последовательность, кодирующую 3'-UTR, функционально связанную с оптимизированной нуклеотидной последовательностью. В конкретных вариантах осуществления 3'-UTR отличается от 3'-UTR встречающейся в природе мРНК, кодирующей аминокислотную последовательность. В конкретном варианте осуществления 3'-UTR имеет нуклеотидную последовательность под SEQ ID NO: 20 или SEQ ID NO: 21.[000176] In some embodiments, the nucleic acid vector comprises a nucleotide sequence encoding a 3'-UTR operably linked to an optimized nucleotide sequence. In specific embodiments, the 3'-UTR differs from the 3'-UTR of a naturally occurring mRNA encoding an amino acid sequence. In a specific embodiment, the 3'-UTR has the nucleotide sequence of SEQ ID NO: 20 or SEQ ID NO: 21.
[000177] Например, нуклеотидную последовательность по настоящему изобретению можно синтезировать из вектора нуклеиновой кислоты, содержащего 5'-UTR, оптимизированную нуклеотидную последовательность и 3'-UTR (и необязательно один или более сигналов терминации на 3'-конце оптимизированной нуклеотидной последовательности) для создания мРНК, содержащей 5'-UTR, оптимизированную нуклеотидную последовательность и З'-UTR.[000177] For example, a nucleotide sequence of the present invention can be synthesized from a nucleic acid vector comprising a 5' UTR, an optimized nucleotide sequence, and a 3' UTR (and optionally one or more termination signals at the 3' end of the optimized nucleotide sequence) to generate an mRNA comprising the 5' UTR, the optimized nucleotide sequence, and the 3' UTR.
[000178] В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит промоторную последовательность, например, промоторную последовательность РНК-полимеразы, такую как промоторная последовательность РНК-полимеразы Т3, Т7 или SP6.[000178] In some embodiments, the nucleic acid vector comprises a promoter sequence, such as an RNA polymerase promoter sequence, such as a T3, T7, or SP6 RNA polymerase promoter sequence.
[000179] В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит один или более сигналов терминации (например, два или три сигнала терминации) ниже 3'-конца синтезированной оптимизированной нуклеотидной последовательности. В некоторых вариантах осуществления способ дополнительно включает вставку одного или более сигналов терминации на 3'-конце синтезированных оптимизированных нуклеотидных последовательностей. В некоторых вариантах осуществления вставляют более одного сигнала терминации, и указанные сигналы терминации разделяют 10 парами оснований или менее, например разделяют 5-10 парами оснований. Добавление одного или более сигналов терминации ниже оптимизированной нуклеотидной последовательности способствует эффективной терминации транскрипции, поскольку РНК транскрибируется с плазмидной ДНК, содержащей оптимизированную нуклеотидную последовательность, что приводит к целенаправленной терминации транскрипции in vitro по одному или более сигналам терминации и, таким образом, ограничивает аберрантное продолжение транскрипции. В некоторых вариантах осуществления вектор нуклеиновой кислоты содержит более одного сигнала терминации, например, два или более, три или более или четыре или более. Наличие нескольких сигналов терминации повышает эффективность терминации транскрипции in vitro в целевом сайте.[000179] In some embodiments, the nucleic acid vector comprises one or more termination signals (e.g., two or three termination signals) downstream of the 3' end of the synthesized optimized nucleotide sequence. In some embodiments, the method further comprises inserting one or more termination signals at the 3' end of the synthesized optimized nucleotide sequences. In some embodiments, more than one termination signal is inserted, and the termination signals are separated by 10 base pairs or less, such as separated by 5-10 base pairs. The addition of one or more termination signals downstream of the optimized nucleotide sequence promotes efficient transcription termination since RNA is transcribed from plasmid DNA containing the optimized nucleotide sequence, resulting in targeted transcription termination in vitro at one or more termination signals and thus limiting aberrant transcription continuation. In some embodiments, the nucleic acid vector comprises more than one termination signal, such as two or more, three or more, or four or more. The presence of multiple termination signals increases the efficiency of transcription termination in vitro at the target site.
[000180] В некоторых вариантах осуществления один или более сигналов терминации имеют следующую нуклеотидную последовательность: 5'-X1ATCTX2TX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, Т или G. В некоторых вариантах осуществления один или более сигналов терминации имеют одну из следующих нуклеотидных последовательностей: TATCTGTT; и/или ТТТТТТ; и/или AAGCTT; и/или GAAGAGC; и/или TCTAGA. В некоторых вариантах осуществления один или более сигналов терминации имеют следующую нуклеотидную последовательность: 5'-X1AUCUX2UX3-3', где Х1, Х2 и Х3 независимо выбраны из А, С, U или G. В некоторых вариантах осуществления один или более сигналов терминации имеют одну из следующих нуклеотидных последовательностей: UAUCUGUU; и/или UUUUUU; и/или AAGCUU; и/или GAAGAGC; и/или UCUAGA. В некоторых вариантах осуществления более одного сигнала терминации кодируют следующей нуклеотидной последовательностью: (а) 5'-Х1АТСТХ2ТХ3-(ZN)- Х4АТСТХ5ТХ6-3' или (b) 5'-Х1АТСТХ2ТХ3-(ZN)-Х4АТСТХ5ТХ6-(ZM)- Х7АТСТХ8ТХ9-3', где X1, Х2, Х3, Х4, Х5, Х6, Х7, Х8 и Х9 независимо выбраны из А, С, Т или G, ZN представляет собой спейсерную последовательность из N нуклеотидов, a ZM представляет собой спейсерную последовательность из М нуклеотидов, каждый из которых независимо выбран из А, С, Т или G, и где N и/или М независимо составляют 10 или меньше.[000180] In some embodiments, the one or more termination signals have the following nucleotide sequence: 5'-X 1 ATCTX 2 TX 3 -3', wherein X 1 , X 2 and X 3 are independently selected from A, C, T or G. In some embodiments, the one or more termination signals have one of the following nucleotide sequences: TATCTGTT; and/or TTTTTTT; and/or AAGCTT; and/or GAAGAGC; and/or TCTAGA. In some embodiments, the one or more termination signals have the following nucleotide sequence: 5'-X 1 AUCUX 2 UX 3 -3', wherein X 1 , X 2 and X 3 are independently selected from A, C, U or G. In some embodiments, the one or more termination signals have one of the following nucleotide sequences: UAUCUGUU; and/or UUUUUU; and/or AAGCUU; and/or GAAGAGC; and/or UCUAGA. In some embodiments, more than one termination signal is encoded by the following nucleotide sequence: (a) 5'-X 1 ATCTX 2 TX 3 -(Z N )- X 4 ATCTX 5 TX 6 -3' or (b) 5'-X 1 ATCTX 2 TX 3 -(Z N )-X 4 ATCTX 5 TX 6 -(Z M )- X 7 ATCTX 8 TX 9 -3', wherein X 1 , X 2 , X 3 , X 4 , X 5 , X 6 , X 7 , X 8 and X 9 are independently selected from A, C, T or G, ZN is a spacer sequence of N nucleotides, and Z M is a spacer sequence of M nucleotides, each of which is independently selected from A, C, T or G, and wherein N and/or M are independently 10 or less.
[000181] Соответственно, в конкретном варианте осуществления настоящего изобретения плазмидная ДНК, содержащая один или более сигналов терминации (например, два или три сигнала терминации) ниже 3'-конца синтезированной оптимизированной нуклеотидной последовательности, не требует линеаризации для транскрипции in vitro. В частности, настоящее изобретение делает возможным получение транскриптов мРНК из кольцевых векторов нуклеиновых кислот, таких как плазмидная ДНК (которая обычно является сверхспиральной), с использованием РНК-полимеразы SP6/T7 для транскрипции in vitro.[000181] Accordingly, in a particular embodiment of the present invention, plasmid DNA containing one or more termination signals (e.g., two or three termination signals) downstream of the 3' end of the synthesized optimized nucleotide sequence does not require linearization for in vitro transcription. In particular, the present invention makes it possible to produce mRNA transcripts from circular nucleic acid vectors, such as plasmid DNA (which is typically supercoiled), using SP6/T7 RNA polymerase for in vitro transcription.
РНК-полимераза SP6RNA polymerase SP6
[000182] В некоторых вариантах осуществления мРНК синтезируют с помощью РНК-полимеразы SP6. В некоторых вариантах осуществления РНК-полимераза SP6 представляет собой встречающуюся в природе РНК-полимеразу SP6. В некоторых вариантах осуществления РНК-полимераза SP6 представляет собой рекомбинантную РНК-полимеразу SP6. В некоторых вариантах осуществления РНК-полимераза SP6 содержит метку. Метки можно использовать для облегчения обнаружения или очистки белка. В некоторых вариантах осуществления метка представляет собой гистидиновую метку, которую, например, можно использовать для очистки с помощью аффинной хроматографии на Ni-NTA.[000182] In some embodiments, mRNA is synthesized using SP6 RNA polymerase. In some embodiments, the SP6 RNA polymerase is a naturally occurring SP6 RNA polymerase. In some embodiments, the SP6 RNA polymerase is a recombinant SP6 RNA polymerase. In some embodiments, the SP6 RNA polymerase comprises a tag. Tags can be used to facilitate detection or purification of the protein. In some embodiments, the tag is a histidine tag, which, for example, can be used for purification using Ni-NTA affinity chromatography.
[000183] РНК-полимераза SP6 представляет собой ДНК-зависимую РНК-полимеразу с высокой специфичностью последовательности для последовательностей с промотором для SP6. Как правило, эта полимераза катализирует синтез РНК в направлении 5'-3' in vitro либо на однонитевой ДНК, либо на двухнитевой ДНК ниже своего промотора; она встраивает нативные рибонуклеотиды и/или модифицированные рибонуклеотиды в полимеризуемый транскрипт.[000183] SP6 RNA polymerase is a DNA-dependent RNA polymerase with high sequence specificity for sequences with the SP6 promoter. Typically, this polymerase catalyzes RNA synthesis in the 5'-3' direction in vitro on either single-stranded DNA or double-stranded DNA downstream of its promoter; it incorporates native ribonucleotides and/or modified ribonucleotides into the polymerized transcript.
[000184] Последовательность РНК-полимеразы SP6 бактериофага была первоначально описана (GenBank: Y00105.1) как имеющая следующую аминокислотную последовательность:[000184] The sequence of bacteriophage SP6 RNA polymerase was originally described (GenBank: Y00105.1) as having the following amino acid sequence:
[000185][000185]
[000186] РНК-полимераза SP6, подходящая для настоящего изобретения, может представлять собой любой фермент, обладающий практически такой же полимеразной активностью, что и РНК-полимераза SP6 бактериофага. Таким образом, в некоторых вариантах осуществления РНК-полимеразу SP6, подходящую для настоящего изобретения, можно получить путем модификации из SEQ ID NO: 1. Например, подходящая РНК-полимераза SP6 может содержать одну или более аминокислотных замен, делеций или добавлений. В некоторых вариантах осуществления подходящая РНК-полимераза SP6 имеет аминокислотную последовательность, которая на приблизительно 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 75%, 70%, 65% или 60% идентична или гомологична SEQ ID NO: 1. В некоторых вариантах осуществления подходящая РНК-полимераза SP6 может представлять собой усеченный белок (с N-конца, С-конца или внутри), но сохранять полимеразную активность. В некоторых вариантах осуществления подходящая РНК-полимераза SP6 представляет собой слитый белок.[000186] An SP6 RNA polymerase suitable for the present invention may be any enzyme that has substantially the same polymerase activity as bacteriophage SP6 RNA polymerase. Thus, in some embodiments, an SP6 RNA polymerase suitable for the present invention can be obtained by modification from SEQ ID NO: 1. For example, a suitable SP6 RNA polymerase may contain one or more amino acid substitutions, deletions, or additions. In some embodiments, a suitable SP6 RNA polymerase has an amino acid sequence that is about 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 75%, 70%, 65%, or 60% identical or homologous to SEQ ID NO: 1. In some embodiments, a suitable SP6 RNA polymerase may be a truncated protein (from the N-terminus, C-terminus, or internally), but retains polymerase activity. In some embodiments, a suitable SP6 RNA polymerase is a fusion protein.
[000187] В некоторых вариантах осуществления РНК-полимераза SP6 кодируется геном, имеющим следующую нуклеотидную последовательность:[000187] In some embodiments, SP6 RNA polymerase is encoded by a gene having the following nucleotide sequence:
[000188] Подходящий ген, кодирующий РНК-полимеразу SP6, подходящую в настоящем изобретении, может быть на приблизительно 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81% или 80% идентичным или гомологичным SEQ ID NO: 2.[000188] A suitable gene encoding an SP6 RNA polymerase useful in the present invention may be approximately 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, or 80% identical or homologous to SEQ ID NO: 2.
[000189] РНК-полимераза SP6, подходящая для настоящего изобретения, может представлять собой коммерчески доступный продукт, например, от Ambion, New England Biolabs (NEB), Promega и Roche. SP6 может быть заказана и/или специально разработана из коммерческого или некоммерческого источника в соответствии с аминокислотной последовательностью SEQ ID NO: 1 или вариантом SEQ ID NO: 1, как описано в данном документе. РНК-полимераза SP6 может представлять собой полимеразу со стандартным уровнем точности или может представлять собой полимеразу с высоким уровнем точности/высокой эффективностью/высокой емкостью, которая была модифицирована для повышения активности РНК-полимеразы, например, посредством мутаций в гене РНК-полимеразы SP6 или посттрансляционных модификаций самой РНК-полимеразы SP6. Примеры таких модифицированных SP6 включают SP6 RNA Polymerase-Plus™ от Ambion, HiScribe SP6 от NEB и систем RiboMAX™ и Riboprobe® от Promega.[000189] An SP6 RNA polymerase suitable for the present invention may be a commercially available product, such as from Ambion, New England Biolabs (NEB), Promega, and Roche. SP6 may be ordered and/or custom-designed from a commercial or non-commercial source according to the amino acid sequence of SEQ ID NO: 1 or a variant of SEQ ID NO: 1, as described herein. The SP6 RNA polymerase may be a standard-fidelity polymerase or may be a high-fidelity/high-efficiency/high-capacity polymerase that has been modified to increase RNA polymerase activity, such as through mutations in the SP6 RNA polymerase gene or post-translational modifications of the SP6 RNA polymerase itself. Examples of such modified SP6 include SP6 RNA Polymerase-Plus™ from Ambion, HiScribe SP6 from NEB, and the RiboMAX™ and Riboprobe® systems from Promega.
[000190] В некоторых вариантах осуществления РНК-полимераза SP6 является термостабильной. В конкретном варианте осуществления аминокислотная последовательность РНК-полимеразы SP6 для применения в настоящем изобретении содержит одну или более мутаций по сравнению с полимеразой SP6 дикого типа, которые делают фермент активным при температуре в диапазоне от 37°С до 56°С. В некоторых вариантах осуществления РНК-полимераза SP6 для применения в настоящем изобретении функционирует при оптимальной температуре 50°С-52°С. В другом варианте осуществления РНК-полимераза SP6 для применения в настоящем изобретении имеет период полужизни по меньшей мере 60 минут при 50°С. Например, особенно подходящая РНК-полимераза SP6 для применения в настоящем изобретении имеет период полужизни от 60 минут до 120 минут (например, от 70 минут до 100 минут или от 8 0 минут до 90 минут) при 50°С.[000190] In some embodiments, the SP6 RNA polymerase is thermostable. In a particular embodiment, the amino acid sequence of the SP6 RNA polymerase for use in the present invention comprises one or more mutations compared to the wild-type SP6 polymerase that render the enzyme active at a temperature in the range of 37°C to 56°C. In some embodiments, the SP6 RNA polymerase for use in the present invention functions at an optimal temperature of 50°C to 52°C. In another embodiment, the SP6 RNA polymerase for use in the present invention has a half-life of at least 60 minutes at 50°C. For example, a particularly suitable SP6 RNA polymerase for use in the present invention has a half-life of 60 minutes to 120 minutes (e.g., 70 minutes to 100 minutes or 80 minutes to 90 minutes) at 50°C.
[000191] В некоторых вариантах осуществления подходящая РНК-полимераза SP6 представляет собой слитый белок. Например, РНК-полимераза SP6 может включать одну или более меток, способствующих выделению, очистке или растворимости фермента. Подходящая метка может быть расположена на N-конце, С-конце и/или внутри. Неограничивающие примеры подходящей метки включают кальмодулин-связывающий белок (СВР); антиген 8-кДа Fasciola hepatica (Fh8); пептид, представляющий собой метку FLAG; глутатион-S-трансферазу (GST); гистидиновую метку (например, гексагистидиновую метку (His6)); белок, связывающий мальтозу (МБР); вещество, использующееся с белком N (NusA); метку, присоединяемую путем слияния, представляющую собой малый убиквитин-подобный модификатор (SUMO); стрептавидин-связывающий пептид (STREP); метку для тандемной аффинной очистки (ТАР) и тиоредоксин (TrxA). В настоящем изобретении могут использоваться другие метки. Эти и другие метки, присоединяемые путем слияния, были описаны, например, Costa et al. Frontiers in Microbiology 5 (2014): 63 и в PCT/US16/57044, содержание которых включено в данный документ посредством ссылки во всей своей полноте. В некоторых вариантах осуществления His-метка расположена на N-конце SP6.[000191] In some embodiments, a suitable SP6 RNA polymerase is a fusion protein. For example, an SP6 RNA polymerase may include one or more tags that facilitate the isolation, purification, or solubility of the enzyme. A suitable tag may be located at the N-terminus, C-terminus, and/or internally. Non-limiting examples of a suitable tag include calmodulin binding protein (CBP); Fasciola hepatica 8-kDa antigen (Fh8); a peptide that is a FLAG tag; glutathione S-transferase (GST); a histidine tag (e.g., a hexahistidine tag (His6)); maltose binding protein (MBP); a substance utilized with protein N (NusA); a fusion tag that is a small ubiquitin-like modifier (SUMO); streptavidin-binding peptide (STREP); a tandem affinity purification (TAP) tag, and thioredoxin (TrxA). Other tags may be used in the present invention. These and other fusion tags have been described, for example, by Costa et al. Frontiers in Microbiology 5 (2014): 63 and in PCT/US16/57044, the contents of which are incorporated herein by reference in their entirety. In some embodiments, the His-tag is located at the N-terminus of SP6.
Промотор для SP6Promoter for SP6
[000192] В настоящем изобретении можно использовать любой промотор, который может быть распознан РНК-полимеразой SP6. Обычно промотор для SP6 содержит 5'-ATTTAGGTGACACTATAG-3' (SEQ ID NO: 3). Были обнаружены и/или созданы варианты промотора для SP6 для оптимизации распознавания и/или связывания SP6 с его промотором. Неограничивающие варианты включают без ограничения: [000192] Any promoter that can be recognized by SP6 RNA polymerase can be used in the present invention. Typically, a promoter for SP6 comprises 5'-ATTTAGGTGACACTATAG-3' (SEQ ID NO: 3). Variants of the promoter for SP6 have been discovered and/or created to optimize the recognition and/or binding of SP6 to its promoter. Non-limiting variants include, but are not limited to:
Если N используется в нуклеотидных последовательностях, N представляет собой А, С, Т или G.When N is used in nucleotide sequences, N represents A, C, T, or G.
[000193] Кроме того, подходящий промотор для SP6 для настоящего изобретения может быть на приблизительно 95%, 90%, 85%, 8 0%, 7 5% или 7 0% идентичным или гомологичным любой из SEQ ID NO: 4 - SEQ ID NO: 13. Более того, промотор для SP6, подходящий для настоящего изобретения, может содержать один или более дополнительных нуклеотидов на 5'- и/или 3'-конце любой из промоторных последовательностей, описанных в данном документе.[000193] Furthermore, a suitable promoter for SP6 for the present invention may be about 95%, 90%, 85%, 80%, 75%, or 70% identical or homologous to any of SEQ ID NO: 4 to SEQ ID NO: 13. Moreover, a promoter for SP6 suitable for the present invention may comprise one or more additional nucleotides at the 5' and/or 3' end of any of the promoter sequences described herein.
РНК-полимераза Т7T7 RNA polymerase
[000194] В некоторых вариантах осуществления мРНК синтезируют с помощью РНК-полимеразы Т7.[000194] In some embodiments, mRNA is synthesized using T7 RNA polymerase.
[000195] РНК-полимераза Т7 представляет собой ДНК-зависимую РНК-полимеразу с высокой специфичностью последовательности для последовательностей с промотором для Т7. Как правило, эта полимераза катализирует синтез РНК в направлении 5'-3' in vitro либо на однонитевой ДНК, либо на двухнитевой ДНК ниже своего промотора; она встраивает нативные рибонуклеотиды и/или модифицированные рибонуклеотиды в полимеризуемый транскрипт.[000195] T7 RNA polymerase is a DNA-dependent RNA polymerase with high sequence specificity for T7 promoter sequences. Typically, this polymerase catalyzes RNA synthesis in the 5'-3' direction in vitro on either single-stranded DNA or double-stranded DNA downstream of its promoter; it incorporates native ribonucleotides and/or modified ribonucleotides into the polymerized transcript.
[000196] В некоторых вариантах осуществления РНК-полимераза Т7 является термостабильной. В конкретном варианте осуществления аминокислотная последовательность РНК-полимеразы Т7 для применения в настоящем изобретении содержит одну или более мутаций по сравнению с полимеразой Т7 дикого типа, которые делают фермент активным при температуре в диапазоне от 37°С до 56°С. Примером подходящей РНК-полимеразы является РНК-полимераза Hi-T7® от NEB. В некоторых вариантах осуществления РНК-полимераза Т7 для применения в настоящем изобретении функционирует при оптимальной температуре 50°С-52°С. В другом варианте осуществления РНК-полимераза Т7 для применения в настоящем изобретении имеет период полужизни по меньшей мере 60 минут при 50°С. Например, особенно подходящая РНК-полимераза Т7 для применения в настоящем изобретении имеет период полужизни от 60 минут до 120 минут (например, от 70 минут до 100 минут или от 80 минут до 90 минут) при 50°С.[000196] In some embodiments, the T7 RNA polymerase is thermostable. In a particular embodiment, the amino acid sequence of the T7 RNA polymerase for use in the present invention comprises one or more mutations compared to the wild-type T7 polymerase that render the enzyme active at a temperature in the range of 37°C to 56°C. An example of a suitable RNA polymerase is Hi-T7® RNA polymerase from NEB. In some embodiments, the T7 RNA polymerase for use in the present invention functions at an optimal temperature of 50°C to 52°C. In another embodiment, the T7 RNA polymerase for use in the present invention has a half-life of at least 60 minutes at 50°C. For example, a particularly suitable T7 RNA polymerase for use in the present invention has a half-life of 60 minutes to 120 minutes (e.g., 70 minutes to 100 minutes or 80 minutes to 90 minutes) at 50°C.
Промотор для Т7Promoter for T7
[000197] В способах, описанных в данном документе, можно использовать любой промотор, который может быть распознан РНК-полимеразой Т7. Обычно промотор для Т7 содержит 5'-TAATACGACTCACTATAG-3' (SEQ ID NO: 14).[000197] Any promoter that can be recognized by T7 RNA polymerase can be used in the methods described herein. Typically, a promoter for T7 comprises 5'-TAATACGACTCACTATAG-3' (SEQ ID NO: 14).
Постсинтетический процессингPost-synthetic processing
[000198] В некоторых вариантах осуществления способ по настоящему изобретению дополнительно включает отдельную стадию копирования и/или наращивания синтезированной мРНК.[000198] In some embodiments, the method of the present invention further comprises a separate step of copying and/or extending the synthesized mRNA.
[000199] Как правило, после синтеза может быть добавлен 5'-кэп и/или 3'-хвост. Присутствие кэпа важно для обеспечения устойчивости к нуклеазам, обнаруживаемым в большинстве эукариотических клеток. Присутствие «хвоста» служит для защиты мРНК от разрушения под действием экзонуклеаз.[000199] Typically, a 5' cap and/or 3' tail may be added after synthesis. The presence of the cap is important for providing resistance to nucleases found in most eukaryotic cells. The presence of the tail serves to protect the mRNA from degradation by exonucleases.
[000200] 5'-кэп обычно добавляют следующим образом: сначала концевая РНК-фосфатаза удаляет одну из концевых фосфатных групп из 5'-нуклеотида, оставляя два концевых фосфата, затем гуанозинтрифосфат (ГТФ) добавляется к концевым фосфатам гуанилилтрансферазой, образуя 5',5',5-трифосфатную связь; а затем атом азота в положении 7 гуанина метилируется метилтрансферазой. Примеры кэп-структур включают без ограничения tom7G(5')ррр(5')(2'OMeG), m7G(5')ррр(5')(2'ОМеА), m7(3'OMeG) (5') ррр (5') (2'OMeG), m7 (3'OMeG) (5') ррр (5') (2'ОМеА), m7G(5')ррр (5' (A, G(5')ррр(5')А и G(5')ррр(5')G. В конкретном варианте осуществления кэп-структура представляет собой r7G (5') ррр (5') (2'OMeG). Дополнительные кэп-структуры описаны в опубликованной заявке США №US 2016/0032356 и предварительной заявке США №62/464327, поданной 27 февраля 2017 г., которые включены в данный документ посредством ссылки.[000200] The 5' cap is typically added as follows: first, terminal RNA phosphatase removes one of the terminal phosphate groups from the 5' nucleotide, leaving two terminal phosphates, then guanosine triphosphate (GTP) is added to the terminal phosphates by guanylyltransferase, forming a 5',5',5-triphosphate linkage; and then the nitrogen atom at position 7 of guanine is methylated by methyltransferase. Examples of cap structures include, but are not limited to, tom7G(5')ppp(5')(2'OMeG), m7G(5')ppp(5')(2'OMeA), m7(3'OMeG)(5')ppp(5')(2'OMeG), m7(3'OMeG)(5')ppp(5')(2'OMeA), m7G(5')ppp(5')(A), G(5')ppp(5')A, and G(5')ppp(5')G. In a particular embodiment, the cap structure is r7G(5')ppp(5')(2'OMeG). Additional cap structures are described in U.S. Published Application No. US 2016/0032356 and U.S. Provisional Application No. 62/464,327, filed on 27 February 2017, which are incorporated herein by reference.
[000201] Как правило, хвостовая структура включает поли(А)-и/или поли(С)-хвост. Поли(А)- или поли(С)-хвост на 3'-конце мРНК обычно содержит по меньшей мере 50 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 150 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 200 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 250 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 300 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 350 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 400 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 450 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 500 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 550 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 600 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 650 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 700 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 750 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 800 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 850 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 900 аденозиновых или цитозиновых нуклеотидов, по меньшей мере 950 аденозиновых или цитозиновых нуклеотидов, или по меньшей мере 1 т.о. аденозиновых или цитозиновых нуклеотидов соответственно. В некоторых вариантах осуществления поли(А)- или поли(С)-хвост может составлять приблизительно 10-800 аденозиновых или цитозиновых нуклеотидов (например, приблизительно 10-200 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-300 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-400 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-500 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-550 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 50-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 100-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 150-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 200-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 250-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 300-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 350-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 400-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 450-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 500-600 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-150 аденозиновых или цитозиновых нуклеотидов, приблизительно 10-100 аденозиновых или цитозиновых нуклеотидов, приблизительно 20-7 0 аденозиновых или цитозиновых нуклеотидов, или приблизительно 20-60 аденозиновых или цитозиновых нуклеотидов) соответственно. В некоторых вариантах осуществления хвостовая структура включает комбинацию поли(А)- и поли(С)-хвостов различной длины, описанных в данном документе. В некоторых вариантах осуществления хвостовая структура содержит по меньшей мере 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98% или 99% аденозиновых нуклеотидов. В некоторых вариантах осуществления хвостовая структура содержит по меньшей мере 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98% или 99% цитозиновых нуклеотидов.[000201] Typically, the tail structure includes a poly(A) and/or poly(C) tail. The poly(A) or poly(C) tail at the 3' end of the mRNA typically contains at least 50 adenosine or cytosine nucleotides, at least 150 adenosine or cytosine nucleotides, at least 200 adenosine or cytosine nucleotides, at least 250 adenosine or cytosine nucleotides, at least 300 adenosine or cytosine nucleotides, at least 350 adenosine or cytosine nucleotides, at least 400 adenosine or cytosine nucleotides, at least 450 adenosine or cytosine nucleotides, at least 500 adenosine or cytosine nucleotides, at least 550 adenosine or cytosine nucleotides, at least 600 adenosine or cytosine nucleotides, at least 650 adenosine or cytosine nucleotides, at least 700 adenosine or cytosine nucleotides, at least 750 adenosine or cytosine nucleotides, at least 800 adenosine or cytosine nucleotides, at least 850 adenosine or cytosine nucleotides, at least 900 adenosine or cytosine nucleotides, at least 950 adenosine or cytosine nucleotides, or at least 1,000 adenosine or cytosine nucleotides, respectively. In some embodiments, the poly(A) or poly(C) tail may be about 10-800 adenosine or cytosine nucleotides (e.g., about 10-200 adenosine or cytosine nucleotides, about 10-300 adenosine or cytosine nucleotides, about 10-400 adenosine or cytosine nucleotides, about 10-500 adenosine or cytosine nucleotides, about 10-550 adenosine or cytosine nucleotides, about 10-600 adenosine or cytosine nucleotides, about 50-600 adenosine or cytosine nucleotides, about 100-600 adenosine or cytosine nucleotides, about 150-600 adenosine or cytosine nucleotides, about 200-600 adenosine or cytosine nucleotides, about 250-600 adenosine or cytosine nucleotides, about 300-600 adenosine or cytosine nucleotides, about 350-600 adenosine or cytosine nucleotides, about 400-600 adenosine or cytosine nucleotides, about 450-600 adenosine or cytosine nucleotides, about 500-600 adenosine or cytosine nucleotides, about 10-150 adenosine or cytosine nucleotides, about 10-100 adenosine or cytosine nucleotides, about 20-70 adenosine or cytosine nucleotides, or about 20-60 adenosine or cytosine nucleotides), respectively. In some embodiments, the tail structure comprises a combination of poly(A) and poly(C) tails of varying lengths as described herein. In some embodiments, the tail structure comprises at least 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98%, or 99% adenosine nucleotides. In some embodiments, the tail structure comprises at least 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98%, or 99% cytosine nucleotides.
[000202] Как описано в данном документе, добавление 5'-кэпа и/или 3'-хвоста облегчает выявление абортивных транскриптов, образованных во время синтеза in vitro, потому что без кэпирования и/или присоединения хвоста размер этих преждевременно прерванных транскриптов мРНК может быть слишком мал, чтобы быть выявленным. Таким образом, в некоторых вариантах осуществления 5'-кэп и/или 3'-хвост добавляют к синтезированной мРНК перед испытанием мРНК в отношении чистоты (например, уровень абортивных транскриптов, присутствующих в мРНК). В некоторых вариантах осуществления 5'-кэп и/или 3'-хвост добавляют к синтезированной мРНК перед очисткой мРНК, как описано в данном документе. В других вариантах осуществления 5'-кэп и/или 3'-хвост добавляют к синтезированной мРНК после очистки мРНК, как описано в данном документе.[000202] As described herein, the addition of a 5' cap and/or 3' tail facilitates the detection of abortive transcripts formed during in vitro synthesis because without capping and/or tailing, the size of these prematurely terminated mRNA transcripts may be too small to be detected. Thus, in some embodiments, a 5' cap and/or 3' tail is added to the synthesized mRNA before testing the mRNA for purity (e.g., the level of abortive transcripts present in the mRNA). In some embodiments, a 5' cap and/or 3' tail is added to the synthesized mRNA before purifying the mRNA as described herein. In other embodiments, a 5' cap and/or 3' tail is added to the synthesized mRNA after purifying the mRNA as described herein.
[000203] В некоторых вариантах осуществления копирование и наращивание происходят во время транскрипции in vitro.[000203] In some embodiments, copying and amplification occur during in vitro transcription.
Условия реакционной смеси для синтеза мРНКReaction mixture conditions for mRNA synthesis
[000204] В некоторых вариантах осуществления концентрация РНК-полимеразы в реакционной смеси может составлять от приблизительно 1 до 100 нМ, от 1 до 90 нМ, от 1 до 80 нМ, от 1 до 70 нМ, от 1 до 60 нМ, от 1 до 50 нМ, от 1 до 40 нМ, от 1 до 30 нМ, от 1 до 20 нМ или от приблизительно 1 до 10 нМ. В определенных вариантах осуществления концентрация РНК-полимеразы составляет от приблизительно 10 до 50 нМ, от 20 до 50 нМ или от 30 до 50 нМ. РНК-полимеразу можно использовать в концентрации от 100 до 10000 Ед/мл, например, можно использовать концентрации от 100 до 9000 Ед/мл, от 100 до 8000 Ед/мл, от 100 до 7000 Ед/мл, от 100 до 6000 Ед/мл, от 100 до 5000 Ед/мл, от 100 до 1000 Ед/мл, от 200 до 2000 Ед/мл, от 500 до 1000 Ед/мл, от 500 до 2000 Ед/мл, от 500 до 3000 Ед/мл, от 500 до 4000 Ед/мл, от 500 до 5000 Ед/мл, от 500 до 6000 Ед/мл, от 1000 до 7500 Ед/мл и от 2500 до 5000 Ед/мл.[000204] In some embodiments, the concentration of RNA polymerase in the reaction mixture can be from about 1 to 100 nM, from 1 to 90 nM, from 1 to 80 nM, from 1 to 70 nM, from 1 to 60 nM, from 1 to 50 nM, from 1 to 40 nM, from 1 to 30 nM, from 1 to 20 nM, or from about 1 to 10 nM. In certain embodiments, the concentration of RNA polymerase is from about 10 to 50 nM, from 20 to 50 nM, or from 30 to 50 nM. RNA polymerase can be used at a concentration of 100 to 10,000 U/ml, for example, concentrations of 100 to 9,000 U/ml, 100 to 8,000 U/ml, 100 to 7,000 U/ml, 100 to 6,000 U/ml, 100 to 5,000 U/ml, 100 to 1,000 U/ml, 200 to 2,000 U/ml, 500 to 1,000 U/ml, 500 to 2,000 U/ml, 500 to 3,000 U/ml, 500 to 4,000 U/ml, 500 to 5,000 U/ml, 500 to 6000 U/ml, 1000 to 7500 U/ml and 2500 to 5000 U/ml.
[000205] Концентрация каждого рибонуклеотида (например, АТФ, УТФ, ГТФ и ЦТФ) в реакционной смеси составляет от приблизительно 0,1 мМ до приблизительно 10 мМ, например, от приблизительно 1 мМ до приблизительно 10 мМ, от приблизительно 2 мМ до приблизительно 10 мМ, от приблизительно 3 мМ до приблизительно 10 мМ, от приблизительно 1 мМ до приблизительно 8 мМ, от приблизительно 1 мМ до приблизительно 6 мМ, от приблизительно 3 мМ до приблизительно 10 мМ, от приблизительно 3 мМ до приблизительно 8 мМ, от приблизительно 3 мМ до приблизительно 6 мМ, от приблизительно 4 мМ до приблизительно 5 мМ. В некоторых вариантах осуществления концентрация каждого рибонуклеотида в реакционной смеси составляет приблизительно 5 мМ. В некоторых вариантах осуществления общая концентрация rNTP (например, АТФ, ГТФ, ЦТФ и УТФ вместе), используемых в реакции, находится в диапазоне от 1 мМ до 40 мМ. В некоторых вариантах осуществления общая концентрация rNTP (например, АТФ, ГТФ, ЦТФ и УТФ вместе), используемых в реакции, находится в диапазоне от 1 мМ до 30 мМ, или от 1 мМ до 28 мМ, или от 1 мМ до 25 мМ, или от 1 мМ до 20 мМ. В некоторых вариантах осуществления общая концентрация rNTP составляет менее 30 мМ. В некоторых вариантах осуществления общая концентрация rNTP составляет менее 25 мМ. В некоторых вариантах осуществления общая концентрация rNTP составляет менее 20 мМ. В некоторых вариантах осуществления общая концентрация rNTP составляет менее 15 мМ. В некоторых вариантах осуществления общая концентрация rNTP составляет менее 10 мМ.[000205] The concentration of each ribonucleotide (e.g., ATP, UTP, GTP, and CTP) in the reaction mixture is from about 0.1 mM to about 10 mM, such as from about 1 mM to about 10 mM, from about 2 mM to about 10 mM, from about 3 mM to about 10 mM, from about 1 mM to about 8 mM, from about 1 mM to about 6 mM, from about 3 mM to about 10 mM, from about 3 mM to about 8 mM, from about 3 mM to about 6 mM, from about 4 mM to about 5 mM. In some embodiments, the concentration of each ribonucleotide in the reaction mixture is about 5 mM. In some embodiments, the total concentration of rNTPs (e.g., ATP, GTP, CTP, and UTP together) used in the reaction is in the range of 1 mM to 40 mM. In some embodiments, the total concentration of rNTPs (e.g., ATP, GTP, CTP, and UTP together) used in the reaction is in the range of 1 mM to 30 mM, or 1 mM to 28 mM, or 1 mM to 25 mM, or 1 mM to 20 mM. In some embodiments, the total concentration of rNTPs is less than 30 mM. In some embodiments, the total concentration of rNTPs is less than 25 mM. In some embodiments, the total concentration of rNTPs is less than 20 mM. In some embodiments, the total concentration of rNTPs is less than 15 mM. In some embodiments, the total concentration of rNTPs is less than 10 mM.
[000206] В конкретном варианте осуществления концентрация каждого rNTP в реакционной смеси оптимизирована на основе частоты встречаемости каждой нуклеиновой кислоты в последовательности нуклеиновой кислоты, которая кодирует данный транскрипт мРНК. В частности, такая реакционная смесь с оптимизированной последовательностью содержит каждый из четырех rNTP {например, АТФ, ГТФ, ЦТФ и УТФ) в соотношении, которое соответствует соотношению этих четырех нуклеиновых кислот (A, G, С и U) в транскрипте мРНК.[000206] In a specific embodiment, the concentration of each rNTP in the reaction mixture is optimized based on the frequency of occurrence of each nucleic acid in the nucleic acid sequence that encodes the mRNA transcript. In particular, such a sequence-optimized reaction mixture contains each of the four rNTPs (e.g., ATP, GTP, CTP, and UTP) in a ratio that corresponds to the ratio of these four nucleic acids (A, G, C, and U) in the mRNA transcript.
[000207] В некоторых вариантах осуществления к реакционной смеси добавляют стартовый нуклеотид перед началом транскрипции in vitro. Стартовый нуклеотид представляет собой нуклеотид, который соответствует первому нуклеотиду транскрипта мРНК (положение+1). Стартовый нуклеотид можно специально добавлять для увеличения скорости инициации РНК-полимеразы. Стартовый нуклеотид может представлять собой нуклеозидмонофосфат, нуклеозиддифосфат, нуклеозидтрифосфат. Стартовый нуклеотид может быть мононуклеотидом, динуклеотидом или тринуклеотидом. В вариантах осуществления, где первый нуклеотид транскрипта мРНК представляет собой G, стартовый нуклеотид обычно представляет собой ГТФ или ГМФ. В конкретном варианте осуществления стартовый нуклеотид представляет собой аналог структуры кэпа. Аналог структуры кэпа можно выбрать из группы, состоящей из [000207] In some embodiments, a start nucleotide is added to the reaction mixture before in vitro transcription begins. The start nucleotide is a nucleotide that corresponds to the first nucleotide of the mRNA transcript (position +1). The start nucleotide can be specifically added to increase the rate of RNA polymerase initiation. The start nucleotide can be a nucleoside monophosphate, a nucleoside diphosphate, or a nucleoside triphosphate. The start nucleotide can be a mononucleotide, a dinucleotide, or a trinucleotide. In embodiments where the first nucleotide of the mRNA transcript is G, the start nucleotide is typically GTP or GMP. In a particular embodiment, the start nucleotide is an analog of a cap structure. The analog of a cap structure can be selected from the group consisting of
[000208] В конкретных вариантах осуществления первый нуклеотид транскрипта РНК представляет собой G, стартовый нуклеотид представляет собой аналог структуры кэпа G, а соответствующий rNTP представляет собой ГТФ. В таких вариантах осуществления аналог структуры кэпа присутствует в реакционной смеси в избытке по сравнению с ГТФ. В некоторых вариантах осуществления аналог структуры кэпа добавляют в исходной концентрации в диапазоне от приблизительно 1 мМ до приблизительно 20 мМ, от приблизительно 1 мМ до приблизительно 17,5 мМ, от приблизительно 1 мМ до приблизительно 15 мМ, от приблизительно 1 мМ до приблизительно 12,5 мМ, от приблизительно 1 мМ до приблизительно 10 мМ, от приблизительно 1 мМ до приблизительно 7,5 мМ, от приблизительно 1 мМ до приблизительно 5 мМ или от приблизительно 1 мМ до приблизительно 2,5 мМ.[000208] In particular embodiments, the first nucleotide of the RNA transcript is G, the starting nucleotide is a G cap structure analog, and the corresponding rNTP is GTP. In such embodiments, the cap structure analog is present in the reaction mixture in excess of GTP. In some embodiments, the cap structure analog is added at an initial concentration in the range of about 1 mM to about 20 mM, about 1 mM to about 17.5 mM, about 1 mM to about 15 mM, about 1 mM to about 12.5 mM, about 1 mM to about 10 mM, about 1 mM to about 7.5 mM, about 1 mM to about 5 mM, or about 1 mM to about 2.5 mM.
[000209] Более типично в контексте настоящего изобретения кэп-структуру, такую как аналог структуры кэпа, добавляют к транскриптам мРНК, полученным во время транскрипции in vitro, только после синтеза транскриптов мРНК, например, на стадии процессинга после синтеза. Как правило, в таких вариантах осуществления транскрипты мРНК сначала очищают (например, путем фильтрации с тангенциальным потоком) перед добавлением кэп-структуры.[000209] More typically, in the context of the present invention, a cap structure, such as a cap structure analog, is added to mRNA transcripts produced during in vitro transcription only after the synthesis of the mRNA transcripts, for example, during a post-synthesis processing step. Typically, in such embodiments, the mRNA transcripts are first purified (for example, by tangential flow filtration) before the addition of the cap structure.
[000210] Реакционный буфер для РНК-полимеразы обычно содержит соль/буферное средство, например Tris, HEPES, сульфат аммония, бикарбонат натрия, цитрат натрия, ацетат натрия, фосфат калия, фосфат натрия, хлорид натрия и хлорид магния.[000210] The reaction buffer for RNA polymerase typically contains a salt/buffering agent such as Tris, HEPES, ammonium sulfate, sodium bicarbonate, sodium citrate, sodium acetate, potassium phosphate, sodium phosphate, sodium chloride, and magnesium chloride.
[000211] Значение рН реакционной смеси может составлять от приблизительно 6 до 8,5, от 6,5 до 8,0, от 7,0 до 7,5, а в некоторых вариантах осуществления значение рН составляет 7,5.[000211] The pH of the reaction mixture can be from about 6 to 8.5, from 6.5 to 8.0, from 7.0 to 7.5, and in some embodiments, the pH is 7.5.
[000212] ДНК-матрицу (например, как описано выше и в количестве/концентрации, достаточных для получения необходимого количества РНК), реакционный буфер для РНК-полимеразы и РНК-полимеразу объединяют с образованием реакционной смеси. Реакционную смесь инкубируют при температуре от приблизительно 37°С до приблизительно 56°С в течение от тридцати минут до шести часов, например от приблизительно шестидесяти до приблизительно девяноста минут. В некоторых вариантах осуществления инкубация происходит при температуре от приблизительно 37°С до приблизительно 42°С. В другом варианте осуществления инкубацию проводят при температуре от приблизительно 43°С до приблизительно 56°С, например от приблизительно 50°С до приблизительно 52°С. Как показано в данном документе, выход точно терминированных транскриптов мРНК, полученных в реакции транскрипции in vitro, можно значительно увеличить путем включения одного или более сигналов терминации, описанных в данном документе, на конце последовательности ДНК, кодирующей представляющий интерес транскрипт мРНК, и проведения реакции с матрицей, включающей последовательности ДНК, при температуре от приблизительно 50°С до приблизительно 52°С.[000212] A DNA template (e.g., as described above and in an amount/concentration sufficient to produce the desired amount of RNA), an RNA polymerase reaction buffer, and an RNA polymerase are combined to form a reaction mixture. The reaction mixture is incubated at a temperature of from about 37°C to about 56°C for from thirty minutes to six hours, such as from about sixty to about ninety minutes. In some embodiments, the incubation occurs at a temperature of from about 37°C to about 42°C. In another embodiment, the incubation is conducted at a temperature of from about 43°C to about 56°C, such as from about 50°C to about 52°C. As shown herein, the yield of precisely terminated mRNA transcripts obtained in an in vitro transcription reaction can be significantly increased by incorporating one or more termination signals described herein at the end of a DNA sequence encoding an mRNA transcript of interest and performing the reaction with a template comprising the DNA sequences at a temperature of from about 50°C to about 52°C.
[000213] В некоторых вариантах осуществления приблизительно 5 мМ NTP, приблизительно 0,05 мг/мл полимеразы и приблизительно 0,1 мг/мл ДНК-матрицы в подходящем реакционном буфере для РНК- полимеразы (рН конечной реакционной смеси составляет приблизительно 7,5) инкубируют при температуре от приблизительно 37°С до приблизительно 42°С в течение шестидесяти-девяноста минут. В других вариантах осуществления приблизительно 5 мМ NTP, приблизительно 0,05 мг/мл полимеразы и приблизительно 0,1 мг/мл ДНК-матрицы в подходящем реакционном буфере для РНК-полимеразы (рН конечной реакционной смеси составляет приблизительно 7,5) инкубируют при температуре от приблизительно 50°С до приблизительно 52°С в течение шестидесяти-девяноста минут.[000213] In some embodiments, about 5 mM NTP, about 0.05 mg/ml polymerase, and about 0.1 mg/ml DNA template in a suitable RNA polymerase reaction buffer (the pH of the final reaction mixture is about 7.5) are incubated at a temperature of about 37°C to about 42°C for sixty to ninety minutes. In other embodiments, about 5 mM NTP, about 0.05 mg/ml polymerase, and about 0.1 mg/ml DNA template in a suitable RNA polymerase reaction buffer (the pH of the final reaction mixture is about 7.5) are incubated at a temperature of about 50°C to about 52°C for sixty to ninety minutes.
[000214] В некоторых вариантах осуществления реакционная смесь содержит двухнитевую ДНК-матрицу со специфичным для РНК-полимеразы промотором, РНК-полимеразой, ингибитором РНКазы, пирофосфатазой, 29 мМ NTP, 10 мМ DTT и реакционным буфером (при 10-кратной концентрации: 800 мМ HEPES, 20 мМ спермидина, 250 мМ МдС12, рН 7,7) и с водой, не содержащей РНКаз, при величине, достаточной (QS) для получения необходимого реакционного объема; затем эту реакционную смесь инкубируют при температуре 37°С в течение 60 минут. Затем полимеразную реакцию гасят посредством добавления ДНКазы I и буфера для ДНКазы I (при 10-кратной концентрации: 100 мМ Tris-HCl, 5 мМ MgCl2 и 25 мМ CaCl2, рН 7,6) для облегчения расщепления двухнитевой ДНК-матрицы при подготовке к очистке. Было показано, что этого варианта осуществления достаточно для получения 100 граммов мРНК.[000214] In some embodiments, the reaction mixture comprises a double-stranded DNA template with an RNA polymerase-specific promoter, RNA polymerase, RNase inhibitor, pyrophosphatase, 29 mM NTP, 10 mM DTT, and reaction buffer (at 10-fold concentration: 800 mM HEPES, 20 mM spermidine, 250 mM MgCl2, pH 7.7) and RNase-free water at a quantity sufficient (QS) to obtain the required reaction volume; the reaction mixture is then incubated at 37°C for 60 minutes. The polymerase reaction is then quenched by the addition of DNase I and DNase I buffer (at 10x concentration: 100 mM Tris-HCl, 5 mM MgCl 2 , and 25 mM CaCl 2 , pH 7.6) to facilitate cleavage of the double-stranded DNA template in preparation for purification. This embodiment has been shown to be sufficient to produce 100 grams of mRNA.
[000215] В некоторых вариантах осуществления реакционная смесь содержит NTP в концентрации, находящейся в диапазоне 1-10 мМ, ДНК-матрицу в концентрации, находящейся в диапазоне 0,01-0,5 мг/мл, и РНК-полимеразу в концентрации, находящейся в диапазоне 0,01-0,1 мг/мл, например, реакционная смесь содержит NTP в концентрации 5 мМ, ДНК-матрицу в концентрации 0,1 мг/мл и РНК-полимеразу в концентрации 0,05 мг/мл.[000215] In some embodiments, the reaction mixture comprises NTP at a concentration in the range of 1-10 mM, DNA template at a concentration in the range of 0.01-0.5 mg/mL, and RNA polymerase at a concentration in the range of 0.01-0.1 mg/mL, for example, the reaction mixture comprises NTP at a concentration of 5 mM, DNA template at a concentration of 0.1 mg/mL, and RNA polymerase at a concentration of 0.05 mg/mL.
НуклеотидыNucleotides
[000216] Различные встречающиеся в природе или модифицированные нуклеозиды можно использовать для получения мРНК в соответствии с настоящим изобретением. В некоторых вариантах осуществления транскрипт мРНК в соответствии с настоящим изобретением синтезируют с использованием природных нуклеозидов (т.е., аденозина, гуанозина, цитидина, уридина). В других вариантах осуществления транскрипт мРНК в соответствии с настоящим изобретением синтезируют с использованием природных нуклеозидов (например, аденозина, гуанозина, цитидина, уридина) и одного или более из следующего: аналоги нуклеозидов (например, 2-аминоаденозин, 2-тиотимидин, инозин, пирролопиримидин, 3-метиладенозин, 5-метилцитидин, С5-пропинилцитидин, С5-пропинилуридин, 2-аминоаденозин, С5-бромуридин, С5-фторуридин, С5-йодуридин, С5-пропинилуридин, С5-пропинилцитидин, С5-метилцитидин, 2-аминоаденозин, 7-дезазааденозин, 7-дезазагуанозин, 8-оксоаденозин, 8-оксогуанозин, O(6)-метилгуанин, псевдоуридин, (например, N-1-метил-псевдоуридин), 2-тиоуридин и 2-тиоцитидин); химически модифицированные основания; биологически модифицированные основания (например, метилированные основания); интеркалированные основания; модифицированные сахара (например, 2'-фторрибозу, рибозу, 2'-дезоксирибозу, арабинозу и гексозу) и/или модифицированные фосфатные группы (например, фосфоротиоаты и 5'-N-фосфорамидитные связи).[000216] Various naturally occurring or modified nucleosides can be used to produce mRNA according to the present invention. In some embodiments, the mRNA transcript according to the present invention is synthesized using natural nucleosides (i.e., adenosine, guanosine, cytidine, uridine). In other embodiments, an mRNA transcript according to the present invention is synthesized using naturally occurring nucleosides (e.g., adenosine, guanosine, cytidine, uridine) and one or more of the following: nucleoside analogs (e.g., 2-aminoadenosine, 2-thiothymidine, inosine, pyrrolopyrimidine, 3-methyladenosine, 5-methylcytidine, C5-propynylcytidine, C5-propynyluridine, 2-aminoadenosine, C5-bromuridine, C5-fluorouridine, C5-ioduridine, C5-propynyluridine, C5-propynylcytidine, C5-methylcytidine, 2-aminoadenosine, 7-deazaadenosine, 7-deazaguanosine, 8-oxoadenosine, 8-oxoguanosine, O(6)-methylguanine, pseudouridine (e.g., N-1-methyl-pseudouridine), 2-thiouridine, and 2-thiocytidine); chemically modified bases; biologically modified bases (e.g., methylated bases); intercalated bases; modified sugars (e.g., 2'-fluororibose, ribose, 2'-deoxyribose, arabinose, and hexose) and/or modified phosphate groups (e.g., phosphorothioates and 5'-N-phosphoramidite linkages).
[000217] В некоторых вариантах осуществления мРНК предусматривает один или более нестандартных нуклеотидных остатков. Нестандартные нуклеотидные остатки могут включать, например, 5-метилцитидин («5mC»), псевдоуридин («ΨU») и/или 2-тиоуридин («2sU»). Обсуждение таких остатков и их включения в мРНК см., например, в патенте США №8278036 или W02011012316. мРНК может представлять собой РНК, которая определяется как РНК, в которой 25% остатков U представляют собой 2-тиоуридин, а 25% остатков С представляют собой 5-метилцитидин. Указания по применению РНК раскрыты в публикации патента США US20120195936 и международной публикации WO 2011012316, обе из которых включены в данный документ посредством ссылки во всей своей полноте. Наличие нестандартных нуклеотидных остатков может сделать мРНК более стабильной и/или менее иммуногенной, чем контрольная мРНК с той же последовательностью, но содержащая только стандартные остатки. В дополнительных вариантах осуществления мРНК может содержать один или более нестандартных нуклеотидных остатков, выбранных из изоцитозина, псевдоизоцитозина, 5-бромурацила, 5-пропинилурацила, 6-аминопурина, 2-аминопурина, инозина, диаминопурина и 2-хлор-6-аминопуринцитозина, а также комбинаций этих модификаций и других модификаций азотистых оснований. Некоторые варианты осуществления могут также предусматривать дополнительные модификации фуранозного кольца или азотистого основания. Дополнительные модификации могут включать, например, модификации или замены сахаров (например, одно или более из модификации 2'-O-алкила, закрытой нуклеиновой кислоты (LNA)). В некоторых вариантах осуществления РНК могут образовывать комплексы или гибридизоваться с дополнительными полинуклеотидами и/или пептидными полинуклеотидами (PNA). В некоторых вариантах осуществления, где модификация сахара представляет собой 2'-O-алкильную модификацию, такая модификация может включать без ограничения 2'-дезокси-2'-фтормодификацию, 2'-О-метильную модификацию, 2'-О-метоксиэтильную модификацию и 2'-дезоксимодификацию. В некоторых вариантах осуществления любая из этих модификаций может присутствовать в 0-100% нуклеотидов, например в более чем 0%, 1%, 10%, 25%, 50%, 75%, 85%, 90%, 95% или в 100% входящих в состав нуклеотидов по отдельности или в комбинации.[000217] In some embodiments, the mRNA provides one or more non-standard nucleotide residues. Non-standard nucleotide residues can include, for example, 5-methylcytidine ("5mC"), pseudouridine ("ΨU"), and/or 2-thiouridine ("2sU"). For a discussion of such residues and their incorporation into mRNA, see, for example, U.S. Patent No. 8,278,036 or WO2011012316. The mRNA can be an RNA, which is defined as an RNA in which 25% of the U residues are 2-thiouridine and 25% of the C residues are 5-methylcytidine. Directions for using RNA are disclosed in U.S. Patent Publication US20120195936 and International Publication WO2011012316, both of which are incorporated herein by reference in their entireties. The presence of non-standard nucleotide residues may make the mRNA more stable and/or less immunogenic than a control mRNA with the same sequence but containing only standard residues. In additional embodiments, the mRNA may comprise one or more non-standard nucleotide residues selected from isocytosine, pseudoisocytosine, 5-bromouracil, 5-propynyluracil, 6-aminopurine, 2-aminopurine, inosine, diaminopurine, and 2-chloro-6-aminopurinecytosine, as well as combinations of these modifications and other nucleobase modifications. Some embodiments may also provide for additional modifications of the furanose ring or nucleobase. Additional modifications may include, for example, sugar modifications or substitutions (e.g., one or more of a 2'-O-alkyl, locked nucleic acid (LNA) modification). In some embodiments, RNAs may form complexes or hybridize with additional polynucleotides and/or peptide polynucleotides (PNAs). In some embodiments, where the sugar modification is a 2'-O-alkyl modification, such modification may include, but is not limited to, 2'-deoxy-2'-fluoro modification, 2'-O-methyl modification, 2'-O-methoxyethyl modification, and 2'-deoxy modification. In some embodiments, any of these modifications may be present in 0-100% of the nucleotides, such as greater than 0%, 1%, 10%, 25%, 50%, 75%, 85%, 90%, 95%, or 100% of the constituent nucleotides, individually or in combination.
Трансфекция и скрининг оптимизированных нуклеотидных последовательностей в клеткахTransfection and screening of optimized nucleotide sequences in cells
[000218] В некоторых вариантах осуществления способ по настоящему изобретению дополнительно включает трансфекцию синтезированной оптимизированной нуклеотидной последовательности в клетку либо in vivo или in vitro. В некоторых вариантах осуществления определяют уровень экспрессии белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью. В некоторых вариантах осуществления способ дополнительно включает синтез эталонной нуклеотидной последовательности и по меньшей мере одной синтезированной оптимизированной нуклеотидной последовательности, созданной в соответствии со способом по настоящему изобретению, а также приведение в контакт каждой нуклеотидной последовательности с отдельной клеткой или организмом. В типичном варианте осуществления клетка или организм, приведенные в контакт с по меньшей мере одной синтезированной оптимизированной нуклеотидной последовательностью, обеспечивают повышенный выход белка, кодируемого оптимизированной нуклеотидной последовательностью, по сравнению с выходом белка, кодируемого эталонной нуклеотидной последовательностью, продуцируемой клеткой или организмом, приведенными в контакт с синтезированной эталонной нуклеотидной последовательностью. Эталонная нуклеотидная последовательность может представлять собой: (а) встречающуюся в природе нуклеотидную последовательность, кодирующую аминокислотную последовательность; или (b) нуклеотидную последовательность, кодирующую аминокислотную последовательность, созданную посредством способа, отличного от способа по настоящему изобретению.[000218] In some embodiments, the method of the present invention further comprises transfecting the synthesized optimized nucleotide sequence into a cell either in vivo or in vitro. In some embodiments, the expression level of the protein encoded by the synthesized optimized nucleotide sequence is determined. In some embodiments, the method further comprises synthesizing a reference nucleotide sequence and at least one synthesized optimized nucleotide sequence created in accordance with the method of the present invention, and contacting each nucleotide sequence with an individual cell or organism. In a typical embodiment, a cell or organism contacted with at least one synthesized optimized nucleotide sequence provides an increased yield of the protein encoded by the optimized nucleotide sequence compared to the yield of the protein encoded by the reference nucleotide sequence produced by the cell or organism contacted with the synthesized reference nucleotide sequence. The reference nucleotide sequence may be: (a) a naturally occurring nucleotide sequence encoding an amino acid sequence; or (b) a nucleotide sequence encoding an amino acid sequence generated by a method other than the method of the present invention.
[000219] Может оказаться необходимым проверить, что синтезированные оптимизированные нуклеотидные последовательности, созданные в соответствии со способами по настоящему изобретению, увеличивают экспрессию кодируемого белка при трансфекции в клетку. Способы, хорошо известные в данной области, такие как вестерн-блоттинг, подходят для экспериментальной проверки того, что оптимизация кодонов указанной нуклеотидной последовательности приводит к повышению экспрессии и продуцирования кодируемого белка. Кроме того, множество синтезированных оптимизированных нуклеотидных последовательностей, созданных способами по настоящему изобретению, можно подвергнуть скринингу для идентификации оптимизированной(-ых) нуклеотидной(-ых) последовательности(-ей), которая(-ые) обеспечивает(-ют) самый высокий выход белка. В некоторых вариантах осуществления уровень экспрессии белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью, увеличивается по меньшей мере в 2 раза, например, по меньшей мере в 3 раза или 4 раза.[000219] It may be necessary to verify that the synthesized optimized nucleotide sequences created in accordance with the methods of the present invention increase the expression of the encoded protein when transfected into a cell. Methods well known in the art, such as Western blotting, are suitable for experimentally verifying that the optimization of the codons of a given nucleotide sequence results in increased expression and production of the encoded protein. In addition, a plurality of synthesized optimized nucleotide sequences created by the methods of the present invention can be screened to identify the optimized nucleotide sequence(s) that provide(s) the highest protein yield. In some embodiments, the expression level of the protein encoded by the synthesized optimized nucleotide sequence is increased by at least 2-fold, such as at least 3-fold or 4-fold.
[000220] В некоторых вариантах осуществления определяют функциональную активность белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью. Функциональную активность белка, кодируемого оптимизированной нуклеотидной последовательностью, можно определить с помощью ряда общепринятых способов. Эти способы могут варьироваться в зависимости от свойств представляющего интерес кодируемого белка. В контексте оптимизации кодонов может оказаться важным экспериментально проверить функциональную активность белка, кодируемого синтезированной(-ыми) оптимизированной(-ыми) нуклеотидной(-ыми) последовательностью(-ями) in vitro или in vivo, чтобы убедиться, что экспрессия указанного(-ых) кодируемого(-ых) белка(-ов) вызывает необходимый(-ые) функциональный(-ые) эффект(-ы). Например, анализ активности фермента можно использовать для определения функциональной ферментативной активности фермента, кодируемого оптимизированной нуклеотидной последовательностью в клетках. Например, анализ эпителиальной фиксации потенциала методом Уссинга можно использовать для оценки активности белка регулятора трансмембранной проводимости при муковисцидозе человека (hCFTR), экспрессируемого из мРНК, кодирующей кодон-оптимизированную последовательность hCFTR, созданную с помощью способов по настоящему изобретению. В этом анализе отслеживают функцию транспорта хлоридов эпителиальных клеток, трансфицированных с помощью мРНК hCFTR.[000220] In some embodiments, the functional activity of the protein encoded by the synthesized optimized nucleotide sequence is determined. The functional activity of the protein encoded by the optimized nucleotide sequence can be determined using a number of conventional methods. These methods may vary depending on the properties of the encoded protein of interest. In the context of codon optimization, it may be important to experimentally test the functional activity of the protein encoded by the synthesized optimized nucleotide sequence(s) in vitro or in vivo to ensure that expression of the encoded protein(s) causes the desired functional effect(s). For example, an enzyme activity assay can be used to determine the functional enzymatic activity of the enzyme encoded by the optimized nucleotide sequence in cells. For example, the Ussing epithelial voltage-clamp assay can be used to assess the activity of the human cystic fibrosis transmembrane conductance regulator (hCFTR) protein expressed from mRNA encoding a codon-optimized hCFTR sequence generated using the methods of the present invention. This assay monitors the chloride transport function of epithelial cells transfected with hCFTR mRNA.
Терапевтические примененияTherapeutic applications
[000221] Настоящее изобретение предусматривает синтезированную оптимизированную нуклеотидную последовательность, созданную согласно способу по настоящему изобретению, для применения в терапии.[000221] The present invention provides a synthesized optimized nucleotide sequence created according to the method of the present invention for use in therapy.
[000222] В области терапии на основе мРНК оптимизацию кодонов можно использовать для увеличения экспрессии функционального белка, кодируемого мРНК, в клетке-мишени, тем самым корректируя дефицит белка при различных нарушениях, включая муковисцидоз (CF), первичную цилиарную дискинезию (PCD), легочную артериальную гипертензию (РАН) и идиопатический легочный фиброз (IPF).[000222] In the field of mRNA-based therapeutics, codon optimization can be used to increase the expression of a functional protein encoded by the mRNA in a target cell, thereby correcting protein deficiencies in various disorders, including cystic fibrosis (CF), primary ciliary dyskinesia (PCD), pulmonary arterial hypertension (PAH), and idiopathic pulmonary fibrosis (IPF).
[000223] В определенных аспектах настоящего изобретения оптимизированная нуклеотидная последовательность кодирует белок, представляющий собой трансмембранный регулятор проводимости при муковисцидозе человека (hCFTR):[000223] In certain aspects of the present invention, the optimized nucleotide sequence encodes a protein that is a human cystic fibrosis transmembrane conductance regulator (hCFTR):
[000224] В одном конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, на по меньшей мере 85%, 88%, 90%, 95%, 96%, 97%, 98% или 99% идентична SEQ ID NO: 26 и кодирует белок CFTR, имеющий аминокислотную последовательность под SEQ ID NO: 15. В конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, представляет собой SEQ ID NO: 26. В одном конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, на по меньшей мере 85%, 88%, 90%, 95%, 96%, 97%, 98% или 99% идентична SEQ ID NO: 27 и кодирует белок hCFTR, имеющий аминокислотную последовательность под SEQ ID NO: 15. В конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, представляет собой SEQ ID NO: 27. В одном конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, на по меньшей мере 85%, 88%, 90%, 95%, 96%, 97%, 98% или 99% идентична SEQ ID NO: 28 и кодирует белок hCFTR, имеющий аминокислотную последовательность под SEQ ID NO: 15. В конкретном варианте осуществления оптимизированная нуклеотидная последовательность, кодирующая белок hCFTR в соответствии с настоящим изобретением, представляет собой SEQ ID NO: 28.[000224] In one specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is at least 85%, 88%, 90%, 95%, 96%, 97%, 98%, or 99% identical to SEQ ID NO: 26 and encodes a CFTR protein having the amino acid sequence of SEQ ID NO: 15. In a specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is SEQ ID NO: 26. In one specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is at least 85%, 88%, 90%, 95%, 96%, 97%, 98%, or 99% identical to SEQ ID NO: 27 and encodes a hCFTR protein having the amino acid sequence of SEQ ID NO: 15. In a specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is SEQ ID NO: 27. In one specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is at least 85%, 88%, 90%, 95%, 96%, 97%, 98% or 99% identical to SEQ ID NO: 28 and encodes the hCFTR protein having the amino acid sequence of SEQ ID NO: 15. In a specific embodiment, the optimized nucleotide sequence encoding the hCFTR protein according to the present invention is SEQ ID NO: 28.
[000225] В определенных аспектах настоящее изобретение предусматривает нуклеиновую кислоту, содержащую оптимизированную нуклеотидную последовательность, кодирующую белок hCFTR в соответствии с настоящим изобретением. В конкретных вариантах осуществления настоящее изобретение предусматривает мРНК, содержащую оптимизированную нуклеотидную последовательность, кодирующую белок hCFTR в соответствии с настоящим изобретением. В некоторых вариантах осуществления мРНК, содержащая оптимизированную нуклеотидную последовательность, кодирующую белок hCFTR в соответствии с настоящим изобретением, также содержит последовательности 5'- и 3'-UTR. Иллюстративные 5'- и 3'-последовательности UTR показаны ниже.[000225] In certain aspects, the present invention provides a nucleic acid comprising an optimized nucleotide sequence encoding an hCFTR protein according to the present invention. In particular embodiments, the present invention provides an mRNA comprising an optimized nucleotide sequence encoding an hCFTR protein according to the present invention. In some embodiments, an mRNA comprising an optimized nucleotide sequence encoding an hCFTR protein according to the present invention also comprises 5'- and 3'-UTR sequences. Exemplary 5'- and 3'-UTR sequences are shown below.
Иллюстративная последовательность 5 '-UTRIllustrative 5'-UTR sequence
Иллюстративная последовательность 3'-UTR илиIllustrative 3'-UTR sequence or
[000226] Синтезированные оптимизированные нуклеотидные последовательности, созданные согласно способу по настоящему изобретению, также находят применение в вакцинах на основе мРНК. В контексте профилактических вакцин на основе мРНК оптимизацию кодонов можно использовать для доведения до максимума экспрессии рекомбинантного антигена, кодируемого мРНК, доставляемой субъекту, для оптимальной антигенной активности, тем самым создавая защитный иммунитет против патогена.[000226] The synthesized optimized nucleotide sequences created according to the method of the present invention also find use in mRNA-based vaccines. In the context of prophylactic mRNA-based vaccines, codon optimization can be used to maximize the expression of the recombinant antigen encoded by the mRNA delivered to the subject for optimal antigenic activity, thereby creating protective immunity against the pathogen.
[000227] Аналогичным образом, в области иммунотерапии рака можно использовать оптимизацию кодонов для доведения до максимума экспрессии рекомбинантного опухолевого неоантигена, кодируемого мРНК, доставляемой субъекту, тем самым создавая адаптивный иммунный ответ против аберрантных опухолевых клеток, экспрессирующих неоантиген.[000227] Similarly, in the field of cancer immunotherapy, codon optimization can be used to maximize the expression of a recombinant tumor neoantigen encoded by mRNA delivered to a subject, thereby generating an adaptive immune response against aberrant tumor cells expressing the neoantigen.
Биотехнологические примененияBiotechnological applications
[000228] В области биотехнологии, особенно в контексте производства рекомбинантных белков, оптимизацию кодонов можно использовать для увеличения продуцирования представляющего интерес белка в клетке-хозяине, такой как бактериальная клетка, дрожжевая клетка, клетка насекомого, клетка растения или клетка млекопитающего.[000228] In the field of biotechnology, particularly in the context of recombinant protein production, codon optimization can be used to increase the production of a protein of interest in a host cell, such as a bacterial cell, a yeast cell, an insect cell, a plant cell, or a mammalian cell.
[000229] Например, способ по настоящему изобретению можно использовать для оптимизации выхода экспрессии белка для рекомбинантного белка инсулина, продуцируемого в Е. coli. Экспрессия рекомбинантных белков также может происходить, например, в клетке-хозяине или в бесклеточном белковом экстракте, подходящем для экспрессии белка. Оптимизацию кодонов также можно использовать для увеличения производства промышленно полезных ферментов, пригодных для применения в биотехнологии, производстве, диагностике и/или исследованиях.[000229] For example, the method of the present invention can be used to optimize the protein expression yield for a recombinant insulin protein produced in E. coli. Expression of recombinant proteins can also occur, for example, in a host cell or in a cell-free protein extract suitable for protein expression. Codon optimization can also be used to increase the production of industrially useful enzymes suitable for use in biotechnology, manufacturing, diagnostics, and/or research.
ПРИМЕРЫEXAMPLES
[000230] Следующие примеры включены только в иллюстративных целях и не предназначены для ограничения объема настоящего изобретения.[000230] The following examples are included for illustrative purposes only and are not intended to limit the scope of the present invention.
Пример 1. Создание оптимизированных нуклеотидных последовательностей.Example 1. Creation of optimized nucleotide sequences.
[000231] Данный пример иллюстрирует способ, который обеспечивает оптимизированные нуклеотидные последовательности в соответствии с настоящим изобретением, которые оптимизированы для получения полноразмерных транскриптов во время синтеза in vitro и приводят к высоким уровням экспрессии кодируемого белка.[000231] This example illustrates a method that provides optimized nucleotide sequences according to the present invention that are optimized to produce full-length transcripts during in vitro synthesis and result in high levels of expression of the encoded protein.
[000232] Данный процесс сочетает способ оптимизации кодонов, показанный на фигуре 1, с последовательностью стадий фильтрации, изображенных на фигуре 10, для создания перечня оптимизированных нуклеотидных последовательностей. В частности, как изображено на фигуре 1, в данном способе получают представляющую интерес аминокислотную последовательность и первую таблицу частот использования кодонов, которая отражает частоту каждого кодона в данном организме (а именно, предпочтения в частотах использования кодонов человека в контексте настоящего примера). Затем в способе удаляют кодоны из первой таблицы частот использования кодонов, если они ассоциированы с частотой использования кодонов, которая меньше пороговой частоты (10%). Частоты использования кодонов для кодонов, не удаленных на первой стадии, нормализуют для создания нормализованной таблицы частот использования кодонов.[000232] This process combines the codon optimization method shown in Figure 1 with the sequence of filtering steps depicted in Figure 10 to create a list of optimized nucleotide sequences. Specifically, as depicted in Figure 1, the method provides an amino acid sequence of interest and a first codon usage table that reflects the frequency of each codon in a given organism (namely, human codon usage preferences in the context of the present example). The method then removes codons from the first codon usage table if they are associated with a codon usage frequency that is less than a threshold frequency (10%). The codon usage frequencies for the codons not removed in the first step are normalized to create a normalized codon usage table.
[000233] Нормализация таблицы частот использования кодонов включает перераспределение значения частоты использования для каждого удаленного кодона; частоту использования для определенного удаленного кодона добавляют к частотам использования других кодонов, с которыми удаленный кодон имеет общую аминокислоту. В этом примере перераспределение является пропорциональным величине частот использования кодонов, не удаленных из таблицы, и может быть выполнено в соответствии с иллюстративным способом, как описано в связи с фигурами 3 и 4 В. В данном способе используют нормализованную таблицу частот использования кодонов для создания перечня оптимизированных нуклеотидных последовательностей. Каждая из оптимизированных нуклеотидных последовательностей кодирует представляющую интерес аминокислотную последовательность.[000233] Normalization of a codon usage table involves redistributing the usage value for each deleted codon; the usage frequency for a particular deleted codon is added to the usage frequencies of other codons with which the deleted codon shares an amino acid. In this example, the redistribution is proportional to the magnitude of the usage frequencies of codons not deleted from the table and can be performed according to an illustrative method as described in connection with Figures 3 and 4B. In this method, a normalized codon usage table is used to create a list of optimized nucleotide sequences. Each of the optimized nucleotide sequences encodes an amino acid sequence of interest.
[000234] Как изображено на фигуре 10, перечень оптимизированных нуклеотидных последовательностей дополнительно обрабатывают путем применения фильтрации на основе отбора мотивов, фильтрации на основе анализа содержания гуанина-цитозина (GC) и фильтрации на основе анализа индекса адаптации кодонов (CAI) в указанном порядке для создания обновленного перечня оптимизированных нуклеотидных последовательностей. Фильтрацию на основе отбора мотивов, изображенную на фигуре 6, используют для удаления последовательностей, которые могут препятствовать транскрипции или трансляции. При фильтрации на основе анализа содержания GC выполняют процесс, изображенный на фигуре 11.[000234] As shown in Figure 10, the list of optimized nucleotide sequences is further processed by applying motif-based filtering, guanine-cytosine (GC) content analysis-based filtering, and codon adaptation index (CAI) analysis-based filtering, in that order, to create an updated list of optimized nucleotide sequences. Motif-based filtering, shown in Figure 6, is used to remove sequences that may interfere with transcription or translation. GC content analysis-based filtering follows the process shown in Figure 11.
[000235] Как изображено в следующих примерах, этот процесс обеспечивает оптимизированные нуклеотидные последовательности, кодирующие представляющую интерес аминокислотную последовательность. Нуклеотидные последовательности обеспечивают полноразмерные транскрипты во время синтеза in vitro и приводят к высоким уровням экспрессии кодируемого белка (см. примеры 2 и 3). Как показано в примере 4, экспрессированный белок является полностью функциональным.[000235] As shown in the following examples, this process provides optimized nucleotide sequences encoding the amino acid sequence of interest. The nucleotide sequences provide full-length transcripts during in vitro synthesis and result in high levels of expression of the encoded protein (see Examples 2 and 3). As shown in Example 4, the expressed protein is fully functional.
Пример 2. Оптимизация кодонов для создания нуклеотидных последовательностей с высоким баллом CAI повышает выход белка.Example 2: Optimizing codons to create nucleotide sequences with a high CAI score improves protein yield.
[000236] Этот пример демонстрирует, что кодон-оптимизированные кодирующие белок последовательности с индексом адаптации кодонов (CAI), составляющим приблизительно 0,8 или выше, превосходят кодон-оптимизированные кодирующие белок последовательности с CAI ниже 0,8.[000236] This example demonstrates that codon-optimized protein-coding sequences with a codon adaptation index (CAI) of approximately 0.8 or greater are superior to codon-optimized protein-coding sequences with a CAI below 0.8.
[000237] Оптимизацию кодонов проводили на аминокислотной последовательности человеческого эритропоэтина (hEPO) дикого типа. hEPO представляет собой белковый гормон, секретируемый почками в ответ на низкий клеточный уровень кислорода (гипоксию). hEPO необходим для эритропоэза, продуцирования эритроцитов. Рекомбинантный hEPO обычно используют при лечении анемии, состояния, характеризующегося низким содержанием эритроцитов или гемоглобина, которое может возникать у субъектов с хроническим заболеванием почек или у субъектов, проходящих химиотерапию рака.[000237] Codon optimization was performed on the amino acid sequence of wild-type human erythropoietin (hEPO). hEPO is a protein hormone secreted by the kidneys in response to low cellular oxygen levels (hypoxia). hEPO is necessary for erythropoiesis, the production of red blood cells. Recombinant hEPO is commonly used in the treatment of anemia, a condition characterized by low red blood cell or hemoglobin levels that can occur in subjects with chronic kidney disease or in subjects undergoing cancer chemotherapy.
[000238] С использованием различных алгоритмов оптимизации кодонов было создано в общей сложности 5 новых кодон-оптимизированных нуклеотидных последовательностей, кодирующих hEPO (с №1 по №5). Нуклеотидные последовательности №4 и №5 были созданы в соответствии со способом по настоящему изобретению, как показано в примере 1. В качестве эталона была предоставлена нуклеотидная последовательность с кодон-оптимизированной кодирующей последовательностью hEPO, которая ранее была экспериментально валидирована как in vitro, так и in vivo. Было обнаружено, что эталонная нуклеотидная последовательность (SEQ ID NO: 19) обеспечивает превосходный выход белка по сравнению с нуклеотидной последовательностью дикого типа и другими кодон-оптимизированными нуклеотидными последовательностями, кодирующими белок hEPO. Характеристики каждой из 5 нуклеотидных последовательностей с точки зрения CAI, содержания GC, распределения частот встречаемости кодонов (CFD), а также наличия отрицательных цис-элементов и отрицательных повторяющихся элементов обобщены в таблице 1.[000238] Using various codon optimization algorithms, a total of 5 new codon-optimized nucleotide sequences encoding hEPO (No. 1 through No. 5) were generated. Nucleotide sequences No. 4 and No. 5 were generated according to the method of the present invention, as shown in Example 1. A nucleotide sequence with a codon-optimized hEPO coding sequence, which had previously been experimentally validated both in vitro and in vivo, was provided as a reference. The reference nucleotide sequence (SEQ ID NO: 19) was found to provide superior protein yield compared to the wild-type nucleotide sequence and other codon-optimized nucleotide sequences encoding the hEPO protein. The characteristics of each of the 5 nucleotide sequences in terms of CAI, GC content, codon frequency distribution (CFD), and the presence of negative cis-elements and negative repeat elements are summarized in Table 1.
[000239] Чтобы проверить выход белка для каждой кодон-оптимизированной последовательности, получили 6 векторов нуклеиновых кислот, каждый из которых содержал кассету экспрессии, содержащую одну из 6 нуклеотидных последовательностей, кодирующих белок hEPO, фланкированных идентичными 3'- и 5'-нетранслируемыми последовательностями (3'-и 5'-UTR), которым предшествует промотор для РНК-полимеразы. Эти векторы нуклеиновых кислот служили в качестве матриц для реакций транскрипции in vitro с целью получения 6 партий мРНК, содержащих 6 кодон-оптимизированных нуклеотидных последовательностей (эталон и нуклеотидные последовательности с №1 по №5). Копирование и наращивание выполняли отдельно. Каждую из копированных и с наращенным хвостом мРНК отдельно трансфицировали в клеточную линию (НЕК2 93). Уровни экспрессии кодируемого белка hEPO оценивали с помощью ELISA. Результаты этого эксперимента обобщены на фигуре 12.[000239] To test the protein yield for each codon-optimized sequence, six nucleic acid vectors were prepared, each containing an expression cassette containing one of the six nucleotide sequences encoding the hEPO protein, flanked by identical 3'- and 5'-untranslated sequences (3'- and 5'-UTRs) preceded by a promoter for RNA polymerase. These nucleic acid vectors served as templates for in vitro transcription reactions to produce six batches of mRNA containing the six codon-optimized nucleotide sequences (reference and nucleotide sequences #1 through #5). Copying and extension were performed separately. Each of the copied and tailed mRNAs was separately transfected into a cell line (HEK2 93). Expression levels of the encoded hEPO protein were assessed by ELISA. The results of this experiment are summarized in Figure 12.
[000240] Как можно увидеть на фигуре 12, самый высокий уровень экспрессии наблюдался с нуклеотидной последовательностью №3 (SEQ ID NO: 22), которая обеспечивала почти в два раза больше белка hEPO, чем экспериментально валидированная эталонная нуклеотидная последовательность. Тенденцию к более высокому выходу белка можно наблюдать для последовательностей в зависимости от их CAI (см. таблицу 1). Нуклеотидная последовательность №3 с самым высоким выходом белка имела самый высокий CAI. Вторая и третья нуклеотидные последовательности с наибольшим выходом, №4 (SEQ ID NO: 23) и №5 (SEQ ID NO: 24), имели второй и третий по величине CAI. Нуклеотидные последовательности №1 (SEQ ID NO: 20) и №2 (SEQ ID NO: 21) с самой низкой эффективностью также имели самый низкий CAI. К тому же, это были также нуклеотидные последовательности с наименьшим содержанием GC. Однако само по себе содержание GC не было определяющим. Эталонная нуклеотидная последовательность характеризовалась самым высоким содержанием GC (61%) среди всех испытанных кодон-оптимизированных последовательностей, но не была так же эффективна, как нуклеотидные последовательности №3, №4 и №5, каждая из которых характеризовалась более низким содержанием GC. Примечательно, что нуклеотидные последовательности №1 и №2 с самой низкой эффективностью также имели более высокое значение CFD.[000240] As can be seen in Figure 12, the highest expression level was observed with nucleotide sequence #3 (SEQ ID NO: 22), which provided almost twice as much hEPO protein as the experimentally validated reference nucleotide sequence. A trend toward higher protein yield can be observed for sequences depending on their CAI (see Table 1). Nucleotide sequence #3 with the highest protein yield had the highest CAI. The second and third nucleotide sequences with the highest yield, #4 (SEQ ID NO: 23) and #5 (SEQ ID NO: 24), had the second and third highest CAI. Nucleotide sequences #1 (SEQ ID NO: 20) and #2 (SEQ ID NO: 21), with the lowest efficiency, also had the lowest CAI. Furthermore, these were also the nucleotide sequences with the lowest GC content. However, GC content alone was not decisive. The reference nucleotide sequence had the highest GC content (61%) among all codon-optimized sequences tested, but it was not as efficient as nucleotide sequences #3, #4, and #5, each of which had lower GC content. Notably, nucleotide sequences #1 and #2, with the lowest efficiency, also had higher CFD values.
[000241] В совокупности данные в этом примере демонстрируют, что оптимизация кодонов терапевтически значимой нуклеотидной последовательности для получения CAI, составляющего приблизительно 0,8 или выше, приводит к большему выходу белка, чем, например, оптимизация кодонов для получения нуклеотидной последовательности с максимально возможным содержанием GC.[000241] Taken together, the data in this example demonstrate that codon optimization of a therapeutically relevant nucleotide sequence to produce a CAI of approximately 0.8 or greater results in higher protein yield than, for example, codon optimization to produce a nucleotide sequence with the highest possible GC content.
Пример 3. Оптимизация кодонов последовательности мРНК CFTR для увеличения CAI приводит к более высокой экспрессии белка.Example 3. Codon optimization of the CFTR mRNA sequence to increase CAI results in higher protein expression.
[000242] Этот пример подтверждает, что кодон-оптимизированные кодирующие белок последовательности с индексом адаптации кодонов (CAI), составляющим приблизительно 0,8 или выше, превосходят кодон-оптимизированные кодирующие белок последовательности с CAI ниже 0,8.[000242] This example confirms that codon-optimized protein-coding sequences with a codon adaptation index (CAI) of approximately 0.8 or greater are superior to codon-optimized protein-coding sequences with a CAI below 0.8.
[000243] Белок hEPO, испытанный в примере 1, представляет собой относительно короткий полипептид, аминокислотная последовательность которого кодируется последовательностью из 4 95 нуклеотидов. Чтобы определить, применимы ли результаты, полученные в примере 1, к гораздо более длинным нуклеотидным последовательностям, кодирующим крупный белок, оптимизацию кодонов выполняли на трансмембранном регуляторе проводимости при муковисцидозе человека (hCFTR). hCFTR кодируется последовательностью из 4440 нуклеотидов, т.е. его последовательность приблизительно в 10 раз длиннее кодирующей последовательности hEPO.[000243] The hEPO protein tested in Example 1 is a relatively short polypeptide, the amino acid sequence of which is encoded by a sequence of 495 nucleotides. To determine whether the results obtained in Example 1 are applicable to much longer nucleotide sequences encoding a large protein, codon optimization was performed on the human cystic fibrosis transmembrane conductance regulator (hCFTR). hCFTR is encoded by a sequence of 4440 nucleotides, i.e., its sequence is approximately 10 times longer than the hEPO coding sequence.
[000244] Мутации в гене, кодирующем белок hCFTR, вызывают муковисцидоз (CF), наиболее распространенное генетическое заболевание среди населения европеоидной расы. Он характеризуется аномальным транспортом ионов хлорида и натрия через эпителий, что приводит к образованию густых, вязких выделений, которые особенно сильно поражают легкие, а также поджелудочную железу, печень и кишечник. мРНК, кодирующую кодон-оптимизированную кодирующую последовательность hCFTR, разрабатывают в качестве нового терапевтического средства для лечения муковисцидоза.Mutations in the gene encoding the hCFTR protein cause cystic fibrosis (CF), the most common genetic disorder in the Caucasian population. It is characterized by abnormal transport of chloride and sodium ions across epithelia, leading to the formation of thick, sticky secretions that particularly affect the lungs, as well as the pancreas, liver, and intestines. mRNA encoding a codon-optimized hCFTR coding sequence is being developed as a new therapeutic agent for the treatment of cystic fibrosis.
[000245] Оптимизацию кодонов проводили для нативной аминокислотной последовательности hCFTR в соответствии со способом по настоящему изобретению, как показано в примере 1. Три последовательности, обозначенные как hCFTR №1 (SEQ ID N0:26), hCFTR №2 (SEQ ID N0:27) и hCFTR №3 (SEQ ID N0:28), выбрали для дальнейшего анализа. В качестве эталона была предоставлена нуклеотидная последовательность с кодирующей последовательностью hCFTR, кодон-оптимизированной с помощью другого алгоритма (SEQ ID NO: 25). Эта эталонная нуклеотидная последовательность (SEQ ID NO: 25) ранее была экспериментально валидирована как in vitro, так и in vivo. Было обнаружено, что эталонная нуклеотидная последовательность обеспечивает превосходный выход белка по сравнению с другими ранее испытанными кодон-оптимизированными нуклеотидными последовательностями, кодирующими белок hCFTR. По сравнению с эталонной нуклеотидной последовательностью CAI и содержание GC в % у кодон-оптимизированных последовательностей hCFTR №2 и hCFTR №3 было значительно увеличено. Кроме того, процент их распределения частот встречаемости кодонов (CFD) составлял 0% по сравнению с 6% для эталонной нуклеотидной последовательности, указывая на то, что кластеры редких кодонов, вредные для эффективности трансляции, были успешно удалены. Дополнительная фильтрация для удаления отрицательных регуляторных мотивов привела к значительному снижению количества отрицательных цис-регуляторных (CIS) элементов в hCFTR №2 и hCFTR №3 (см. таблицу 2).[000245] Codon optimization was performed for the native amino acid sequence of hCFTR according to the method of the present invention, as shown in Example 1. Three sequences, designated hCFTR #1 (SEQ ID NO:26), hCFTR #2 (SEQ ID NO:27), and hCFTR #3 (SEQ ID NO:28), were selected for further analysis. A nucleotide sequence with the codon-optimized hCFTR encoding sequence using a different algorithm (SEQ ID NO:25) was provided as a reference. This reference nucleotide sequence (SEQ ID NO:25) had previously been experimentally validated both in vitro and in vivo. The reference nucleotide sequence was found to provide superior protein yield compared to other previously tested codon-optimized nucleotide sequences encoding the hCFTR protein. Compared with the reference nucleotide sequence, the CAI and GC content in % were significantly increased in the codon-optimized hCFTR#2 and hCFTR#3 sequences. Furthermore, their codon frequency distribution (CFD) percentage was 0% compared to 6% for the reference nucleotide sequence, indicating that clusters of rare codons detrimental to translation efficiency were successfully removed. Additional filtering to remove negative regulatory motifs resulted in a significant reduction in the number of negative cis-regulatory (CIS) elements in hCFTR#2 and hCFTR#3 (see Table 2).
[000246] Чтобы проверить выход белка для каждой кодон-оптимизированной последовательности, получили 4 вектора нуклеиновых кислот, каждый из которых содержал кассету экспрессии, содержащую одну из 4 нуклеотидных последовательностей, кодирующих белок hCFTR, фланкированных идентичными 3'- и 5'-нетранслируемыми последовательностями (3'-и 5'-UTR), которым предшествует промотор для РНК-полимеразы. Эти векторы нуклеиновых кислот служили в качестве матриц для реакций транскрипции in vitro с целью получения 4 партий мРНК, содержащих 4 кодон-оптимизированные нуклеотидные последовательности (эталон и hCFTR №1-№3). Копирование и наращивание выполняли отдельно.[000246] To test the protein yield for each codon-optimized sequence, four nucleic acid vectors were generated, each containing an expression cassette containing one of the four nucleotide sequences encoding the hCFTR protein, flanked by identical 3'- and 5'-untranslated sequences (3'- and 5'-UTRs) preceded by a promoter for RNA polymerase. These nucleic acid vectors served as templates for in vitro transcription reactions to produce four batches of mRNA containing the four codon-optimized nucleotide sequences (reference and hCFTR #1-#3). Copying and extension were performed separately.
[000247] Каждую из копированных и с наращенным хвостом мРНК отдельно трансфицировали в клеточную линию (НЕК2 93). Клеточные лизаты собирали через 24 и 48 часов после трансфекции. Образцы белка экстрагировали и обрабатывали для SDS-PAGE. Уровни экспрессии кодируемого белка hCFTR оценивали с помощью вестерн-блоттинга. Полосы белка проявляли и количественно оценивали с использованием системы LI-COR. Выход белка выражали в относительных единицах флуоресценции (RFU). Результаты этого эксперимента обобщены на фигуре 13. Кодон-оптимизированные нуклеотидные последовательности hCFTR №2 и hCFTR №3, обе из которых имели значение CAI, составляющее 0,89, давали значительно более высокие выходы кодируемого белка hCFTR по сравнению с эталонной нуклеотидной последовательностью и hCFTR №1, обе из которых имели значение CAI, составляющее 0,7. Этот эффект был более выражен через 24 часа (см. фигуру 13В), предположительно из-за относительно быстрого разрушения мРНК в клетках НЕК2 93 после трансфекции.[000247] Each of the replicated and tailed mRNAs was separately transfected into a cell line (HEK2 93). Cell lysates were collected 24 and 48 hours after transfection. Protein samples were extracted and processed for SDS-PAGE. Expression levels of the encoded hCFTR protein were assessed by Western blotting. Protein bands were detected and quantified using the LI-COR system. Protein yield was expressed as relative fluorescence units (RFU). The results of this experiment are summarized in Figure 13. The codon-optimized hCFTR#2 and hCFTR#3 nucleotide sequences, both of which had a CAI value of 0.89, produced significantly higher yields of encoded hCFTR protein compared to the reference nucleotide sequence and hCFTR#1, both of which had a CAI value of 0.7. This effect was more pronounced after 24 hours (see Figure 13B), presumably due to the relatively rapid degradation of mRNA in HEK2 93 cells after transfection.
[000248] Данные в этом примере демонстрируют, что оптимизация кодонов терапевтически значимой нуклеотидной последовательности (hCFTR) для получения CAI, составляющего приблизительно 0,8 или выше, приводит к большему выходу белка, в частности, в комбинации с оптимизацией ее CFD и ее содержания GC, а также с удалением любых отрицательных цис-элементов из последовательности нуклеиновой кислоты. Данные в этом примере также подтверждают, что оптимизация кодонов мРНК hCFTR в соответствии со способами по настоящему изобретению приводит к очень высокому выходу белка hCFTR в клетках человека по сравнению с нуклеотидными последовательностями, кодон-оптимизированными с помощью другого алгоритма.[000248] The data in this example demonstrate that codon optimization of a therapeutically relevant nucleotide sequence (hCFTR) to obtain a CAI of approximately 0.8 or greater results in higher protein yield, particularly in combination with optimization of its CFD and its GC content, as well as removal of any negative cis-elements from the nucleic acid sequence. The data in this example also confirm that codon optimization of hCFTR mRNA according to the methods of the present invention results in a very high yield of hCFTR protein in human cells compared to nucleotide sequences codon-optimized using a different algorithm.
Пример 4. Оптимизация кодонов нуклеотидной последовательности CFTR приводит к повышенной функциональной активности в клетках.Example 4. Optimization of the CFTR nucleotide sequence codons leads to increased functional activity in cells.
[000249] Этот пример показывает, что оптимизация кодонов нуклеотидной последовательности hCFTR в соответствии со способом по настоящему изобретению не оказывает неблагоприятного воздействия на функциональную активность hCFTR в клетках человека.[000249] This example demonstrates that codon optimization of the hCFTR nucleotide sequence in accordance with the method of the present invention does not adversely affect the functional activity of hCFTR in human cells.
[000250] Введение мРНК hCFTR должно привести к ее поглощению эпителиальными клетками дыхательных путей у пациентов с CF с последующей интернализацией в цитоплазму клеток-мишеней. Как только происходит клеточное поглощение, мРНК hCFTR транслируется в нормальный белок hCFTR, который затем подвергается процессингу в эндогенном секреторном пути клетки, что приводит к локализации белка hCFTR на апикальной поверхности клеточной мембраны. С помощью этого подхода при введении мРНК hCFTR продуцируется функциональный белок hCFTR в эпителии дыхательных путей, тем самым корректируя дефицит функционального CFTR в легких пациентов с CF. Оптимизация кодонов нуклеотидной последовательности мРНК hCFTR может увеличить экспрессию функционального белка hCFTR, что, как полагают, приводит к увеличению количества функционального белка hCFTR в эпителиальных клетках-мишенях дыхательных путей у пациентов с CF.[000250] Administration of hCFTR mRNA should result in its uptake by airway epithelial cells in patients with CF, followed by internalization into the cytoplasm of target cells. Once cellular uptake occurs, hCFTR mRNA is translated into normal hCFTR protein, which is then processed in the endogenous secretory pathway of the cell, resulting in localization of the hCFTR protein to the apical surface of the cell membrane. Using this approach, administration of hCFTR mRNA produces functional hCFTR protein in the airway epithelium, thereby correcting the deficiency of functional CFTR in the lungs of patients with CF. Codon optimization of the hCFTR mRNA nucleotide sequence can increase the expression of functional hCFTR protein, which is believed to lead to increased amounts of functional hCFTR protein in airway epithelial target cells in patients with CF.
[000251] Сообщалось, что оптимизация кодонов может происходить за счет снижения функциональной активности кодируемого белка и ассоциированной с этим потери эффективности, поскольку процесс может привести к удалению информации, кодируемой в нуклеотидной последовательности, которая важна для контроля трансляции белка и обеспечения правильного фолдинга синтезируемой полипептидной цепи (Mauro & Chappell, Trends Mol Med. 2014; 20(11):604-13). Чтобы испытать функциональную активность белка hCFTR, экспрессируемого из кодон-оптимизированных последовательностей, созданных с применением способа оптимизации кодонов, как показано в примере 1, мРНК hCFTR, полученные в примере 2, испытывали в анализе с камерой Уссинга. В этом анализе применяют эпителиальную фиксацию потенциала для оценки функциональной активности белка, экспрессируемого из мРНК hCFTR, путем мониторинга функции транспорта хлоридов эпителиальных клеток, которые были трансфицированы указанной мРНК. В частности, функциональную активность белка hCFTR, экспрессируемого из мРНК с контрольной кодирующей последовательностью hCFTR (SEQ ID NO: 25) или кодирующей последовательностью hCFTR №1 (SEQ ID NO: 26), hCFTR №2 (SEQ ID NO: 27) или hCFTR №3 (SEQ ID NO: 28), измеряли в эпителиальных клетках щитовидной железы крыс Fischer (FRT). Эпителиальные клетки FRT обычно используются в качестве модели для изучения функции эпителиальных клеток дыхательных путей человека. Эпителиальные клетки FRT выращивали в монослоях на вкладышах фильтра Snapwell™ и трансфицировали с помощью 4 мРНК hCFTR. 4 мРНК hCFTR получали, как описано в примере 2. Контрольную мРНК предварительно валидировали в данном анализе и использовали в качестве эталонного стандарта.[000251] It has been reported that codon optimization can occur at the expense of a decrease in the functional activity of the encoded protein and an associated loss of efficiency, since the process can result in the removal of information encoded in the nucleotide sequence that is important for controlling protein translation and ensuring the correct folding of the synthesized polypeptide chain (Mauro & Chappell, Trends Mol Med. 2014; 20(11):604-13). To test the functional activity of the hCFTR protein expressed from the codon-optimized sequences generated using the codon optimization method shown in Example 1, the hCFTR mRNAs obtained in Example 2 were tested in a Ussing chamber assay. This assay uses epithelial voltage clamp to assess the functional activity of the protein expressed from hCFTR mRNA by monitoring the chloride transport function of epithelial cells that have been transfected with the mRNA. Specifically, the functional activity of hCFTR protein expressed from mRNA with the hCFTR control coding sequence (SEQ ID NO: 25) or the coding sequence of hCFTR #1 (SEQ ID NO: 26), hCFTR #2 (SEQ ID NO: 27), or hCFTR #3 (SEQ ID NO: 28) was measured in Fischer rat thyroid epithelial cells (FRT). FRT epithelial cells are commonly used as a model for studying human airway epithelial cell function. FRT epithelial cells were grown in monolayers on Snapwell™ filter inserts and transfected with 4 hCFTR mRNA. 4 hCFTR mRNA was prepared as described in Example 2. The control mRNA was previously validated in this assay and used as a reference standard.
[000252] Правильно транслированный и локализованный белок hCFTR, продуцируемый из мРНК hCFTR, увеличивает выход тока короткого замыкания (Isc) в аппарате Уссинга для эпителиальной фиксации потенциала при применении агонистов CFTR (форсколин и VX-770 [Kalydeco]). Применение антагониста CFTR, CFTRinh-172, переводит hCFTR в заблокированное состояние. Методика измерения полярности тока Isc в этом анализе фиксирует апикально-базолатеральный ток натрия и базолатерально-апикальный ток хлорида как отрицательные значения, и поэтому, если трансфекция испытываемой мРНК hCFTR дает высокое отрицательное значение, можно сделать вывод, что кодируемый белок hCFTR является функциональным (фигура 14А). Более того, при трансфекции равных количеств мРНК можно оценить, дает ли мРНК более высокий выход белка hCFTR, поскольку выход белка и активность коррелируют.Трансфекция эпителиальных клеток FRT с помощью мРНК, имеющей кодирующую последовательность hCFTR №1, приводила к активности, сравнимой с активностью, достигаемой при трансфекции мРНК, имеющей контрольную кодирующую последовательность hCFTR (фигура 14 В). мРНК, кодирующие нуклеотидную последовательность, которая кодирует hCFTR, созданную способом по настоящему изобретению, приводили к значительному повышению активности. В соответствии с более высокими выходами белка, наблюдаемыми в примере 2, белок hCFTR, полученный из мРНК, кодирующей hCFTR №2, привел к более чем 2-кратному повышению активности по сравнению с контрольной мРНК, а белок hCFTR, полученный из мРНК, кодирующей hCFTR №3, привел к 3-кратному повышению активности по сравнению с контрольной мРНК. Это подтверждает, что более высокий выход белка, полученный из hCFTR №2 и hCFTR №3, наблюдаемый в примере 2, прямо коррелирует с более высокой функциональной активностью, демонстрируя, что оптимизация кодонов в соответствии со способом по настоящему изобретению не оказывает отрицательного воздействия на функциональную активность кодируемых белков.[000252] Properly translated and localized hCFTR protein, produced from hCFTR mRNA, increases the short-circuit current (Isc) output in the Ussing apparatus for epithelial voltage clamp when treated with CFTR agonists (forskolin and VX-770 [Kalydeco]). Treatment with the CFTR antagonist, CFTRinh-172, locks hCFTR into a locked state. The Isc current polarity measurement method in this assay records the apical-basolateral sodium current and the basolateral-apical chloride current as negative values, and therefore, if transfection of the test hCFTR mRNA yields a high negative value, it can be concluded that the encoded hCFTR protein is functional (Figure 14A). Furthermore, by transfecting equal amounts of mRNA, it is possible to assess whether mRNA yields a higher hCFTR protein yield, since protein yield and activity correlate. Transfection of FRT epithelial cells with mRNA containing the hCFTR #1 coding sequence resulted in activity comparable to that achieved by transfection with mRNA containing the control hCFTR coding sequence (Figure 14B). mRNAs encoding the nucleotide sequence encoding hCFTR, generated by the method of the present invention, resulted in a significant increase in activity. In accordance with the higher protein yields observed in Example 2, the hCFTR protein obtained from mRNA encoding hCFTR #2 resulted in a greater than 2-fold increase in activity compared to the control mRNA, and the hCFTR protein obtained from mRNA encoding hCFTR #3 resulted in a 3-fold increase in activity compared to the control mRNA. This confirms that the higher protein yield obtained from hCFTR #2 and hCFTR #3 observed in Example 2 directly correlates with higher functional activity, demonstrating that codon optimization according to the method of the present invention does not negatively impact the functional activity of the encoded proteins.
[000253] Таким образом, оптимизация кодонов в соответствии со способом по настоящему изобретению приводит к более высокой экспрессии кодируемого белка в клетках человека, а экспрессированный белок обеспечивает полную функциональную активность в модельной системе, которая является хорошо обоснованной моделью для терапии человека.[000253] Thus, codon optimization according to the method of the present invention results in higher expression of the encoded protein in human cells, and the expressed protein provides full functional activity in a model system that is a well-established model for human therapy.
Пример 5. Оптимизация кодонов последовательности мРНК DNAI1 для увеличения CAI приводит к более высокой экспрессии белка.Example 5. Codon optimization of DNAI1 mRNA sequence to increase CAI results in higher protein expression.
[000254] Данные в этом примере демонстрируют, что оптимизация кодонов дополнительной терапевтически значимой нуклеотидной последовательности (DNAI1) для получения CAI, составляющего приблизительно 0,8 или больше, приводит к большему выходу белка в клетках, в частности, в комбинации с оптимизацией ее CFD и ее содержания GC, а также с удалением любых отрицательных цис-элементов из последовательности нуклеиновой кислоты. Данные в этом примере также подтверждают, что значения CAI положительно коррелируют с выходом экспрессии белка для кодон-оптимизированных мРНК, созданных согласно способам по настоящему изобретению.[000254] The data in this example demonstrate that codon optimization of an additional therapeutically significant nucleotide sequence (DNAI1) to obtain a CAI of approximately 0.8 or greater results in higher protein yield in cells, particularly in combination with optimization of its CFD and its GC content, as well as removal of any negative cis-elements from the nucleic acid sequence. The data in this example also confirm that CAI values positively correlate with protein expression yield for codon-optimized mRNAs generated according to the methods of the present invention.
[000255] Первичная цилиарная дискинезия (PCD) представляет собой аутосомно-рецессивное заболевание, характеризующееся наличием аномальных ресничек и жгутиков, которые обнаруживаются в слизистой оболочке дыхательных путей, репродуктивной системе и других органах и тканях. Симптомы присутствуют уже при рождении из-за проблем с дыханием, и у пострадавших индивидуумов развиваются частые инфекции дыхательных путей, начиная с раннего детства. У людей с PCD также имеют место круглогодичная заложенность носа и хронический кашель. Хронические инфекции дыхательных путей могут привести к состоянию, называемому бронхоэктазом, которое повреждает проходы, называемые бронхами, и может вызвать опасные для жизни проблемы с дыханием. Некоторые индивидуумы с PCD также имеют бесплодие, рецидивирующие ушные инфекции, аномальное расположение органов в грудной клетке и брюшной полости. Среди нескольких генов, которые, как подтверждено, непосредственно участвуют в патогенезе PCD, значительное количество мутаций обнаружено в двух генах: DNAI1 и DNAH5, кодирующих промежуточную и тяжелую цепи аксонемного динеина соответственно.Primary ciliary dyskinesia (PCD) is an autosomal recessive disorder characterized by the presence of abnormal cilia and flagella found in the lining of the respiratory tract, reproductive system, and other organs and tissues. Symptoms are present at birth due to breathing problems, and affected individuals develop frequent respiratory tract infections beginning in early childhood. People with PCD also experience year-round nasal congestion and a chronic cough. Chronic respiratory tract infections can lead to a condition called bronchiectasis, which damages the airways called bronchi and can cause life-threatening breathing problems. Some individuals with PCD also experience infertility, recurrent ear infections, and abnormal organ placement in the chest and abdomen. Among several genes confirmed to be directly involved in the pathogenesis of PCD, a significant number of mutations have been found in two genes: DNAI1 and DNAH5, encoding the intermediate and heavy chains of axonemal dynein, respectively.
[000256] мРНК, кодирующая кодон-оптимизированную кодирующую последовательность DNAI1, разрабатывается в качестве нового терапевтического средства для лечения PCD.[000256] mRNA encoding the codon-optimized DNAI1 coding sequence is being developed as a new therapeutic agent for the treatment of PCD.
[000257] Оптимизацию кодонов проводили с использованием нативной аминокислотной последовательности DNAI1 в соответствии со способами по настоящему изобретению, как показано в примере 1, для создания трех последовательностей, обозначенных DNAI1 №1 (SEQ ID NO: 29), DNAI1 №2 (SEQ ID NO: 30), DNAI1 №3 (SEQ ID NO: 31). Кодон-оптимизированную последовательность DNAI1, DNAI1 №4 (SEQ ID NO: 32), также включили в качестве эталона. DNAI1 №4 была кодон-оптимизирована, но не подвергалась дополнительной обработке путем применения фильтрации на основе отбора мотивов, фильтрации на основе анализа содержания гуанина-цитозина (GC) и фильтрации на основе анализа индекса адаптации кодонов (CAI). Полученные кодон-оптимизированные нуклеотидные последовательности, созданные в соответствии со способами по настоящему изобретению, имели значения CAI, составляющие 0,8 или[000257] Codon optimization was performed using the native amino acid sequence of DNAI1 according to the methods of the present invention, as shown in Example 1, to generate three sequences designated DNAI1#1 (SEQ ID NO: 29), DNAI1#2 (SEQ ID NO: 30), DNAI1#3 (SEQ ID NO: 31). A codon-optimized DNAI1 sequence, DNAI1#4 (SEQ ID NO: 32), was also included as a reference. DNAI1#4 was codon-optimized, but was not further processed by applying filtering based on motif selection, filtering based on guanine-cytosine (GC) content analysis, and filtering based on codon adaptation index (CAI) analysis. The resulting codon-optimized nucleotide sequences generated according to the methods of the present invention had CAI values of 0.8 or
[000258] Чтобы проверить выход белка для каждой кодон-оптимизированной последовательности, получили 4 вектора нуклеиновых кислот, каждый из которых содержал кассету экспрессии, содержащую одну из 4 нуклеотидных последовательностей, кодирующих белок DNAI1, фланкированных идентичными 5'- и 3'-UTR, которым предшествует промотор для РНК-полимеразы. Эти векторы нуклеиновых кислот служили в качестве матриц для реакций транскрипции in vitro с целью получения 4 партий мРНК, содержащих 4 кодон-оптимизированные нуклеотидные последовательности (DNAI1 №1-№4). Копирование и наращивание выполняли отдельно.[000258] To test the protein yield for each codon-optimized sequence, four nucleic acid vectors were generated, each containing an expression cassette containing one of the four DNAI1 protein-encoding nucleotide sequences flanked by identical 5' and 3' UTRs preceded by a promoter for RNA polymerase. These nucleic acid vectors served as templates for in vitro transcription reactions to produce four batches of mRNA containing the four codon-optimized nucleotide sequences (DNAI1 #1-#4). Copying and extension were performed separately.
[000259] 2 мкг каждой из копированных и с наращенным хвостом мРНК использовали для трансфекции 105 трансфицированных клеток НЕК2 93Т. Нетрансфицированные клетки НЕК2 93Т также включили для обеспечения отрицательного контроля. Клеточные лизаты собирали через 24 часа после трансфекции, образцы белка экстрагировали и обрабатывали для SDS-PAGE. Два образца из каждой партии клеток обрабатывали и анализировали. Уровни экспрессии кодируемого белка DNAI1 оценивали с помощью вестерн-блоттинга с использованием первичного антитела к DNAI1 (αDNAIl). Уровни экспрессии винкулина также измеряли с использованием первичного антитела к винкулину (aVinculin) для обеспечения контроля загрузки. Сигналы проявляли и количественно оценивали с использованием системы визуализации LI-COR, а выходы белка DNAI1, нормализованные по винкулину, графически отображали на фигуре 15 В как кратное увеличение относительно эталонного уровня, достигнутого с мРНК, кодирующей последовательность DNAL1, которая не была кодон-оптимизирована. Результаты этого эксперимента обобщены на фигуре 15. Кодон-оптимизированная нуклеотидная последовательность DNAI1 №1, которая имела самый высокий CAI (0,90), продуцировала самый высокий уровень белка DNAI1 по сравнению с эталоном (DNAI1 №4). Кодон-оптимизированные последовательности DNAI1 №2 и DNAI1 №3 имели CAI, составляющий 0,87, и продуцировали сопоставимые уровни белка DNAI1, несмотря на различия в нуклеотидной последовательности, указывая на то, что CAI тесно связан с выходом экспрессии белка. Кодон-оптимизированная последовательность DNAI1 №4 с CAI, составлявшим 0,83, продуцировала наименьшее количество белка по сравнению с оптимизированными нуклеотидными последовательностями с более высоким CAI, но все же значительно выше по сравнению с эталонным уровнем.[000259] 2 μg of each replicated and tailed mRNA were used to transfect 105 transfected HEK2 93T cells. Untransfected HEK2 93T cells were also included to provide a negative control. Cell lysates were collected 24 hours after transfection, and protein samples were extracted and processed for SDS-PAGE. Two samples from each batch of cells were processed and analyzed. Expression levels of the encoded DNAI1 protein were assessed by Western blotting using the primary antibody to DNAI1 (αDNAI1). Vinculin expression levels were also measured using the primary antibody to vinculin (aVinculin) to provide a loading control. Signals were developed and quantified using the LI-COR imaging system, and DNAI1 protein yields normalized to vinculin were plotted in Figure 15B as a fold increase relative to the reference level achieved with mRNA encoding the DNAL1 sequence that was not codon-optimized. The results of this experiment are summarized in Figure 15. The codon-optimized DNAI1 sequence #1, which had the highest CAI (0.90), produced the highest DNAI1 protein level compared to the reference (DNAI1 #4). The codon-optimized DNAI1 #2 and DNAI1 #3 sequences had a CAI of 0.87 and produced comparable DNAI1 protein levels despite the differences in nucleotide sequence, indicating that CAI is closely related to protein expression yield. The codon-optimized DNAI1 #4 sequence with a CAI of 0.83 produced the lowest amount of protein compared to the optimized nucleotide sequences with a higher CAI, but still significantly higher than the reference level.
[000260] В совокупности эти данные показывают, что для мРНК, содержащих кодон-оптимизированную нуклеотидную последовательность по настоящему изобретению, более высокий CAI является строгим показателем выхода экспрессии белка, а также показывают, что различные кодон-оптимизированные нуклеотидные последовательности с одинаковыми значениями CAI дают сходные уровни кодируемого белка в клетках.[000260] Taken together, these data show that for mRNAs containing the codon-optimized nucleotide sequence of the present invention, a higher CAI is a strong indicator of protein expression yield, and also show that different codon-optimized nucleotide sequences with the same CAI values yield similar levels of the encoded protein in cells.
Пронумерованные варианты осуществления изобретенияNumbered embodiments of the invention
1. Компьютеризированный способ создания оптимизированной нуклеотидной последовательности, включающий: (i) получение аминокислотной последовательности, где аминокислотная последовательность кодирует пептид, полипептид или белок; (ii) получение первой таблицы частот использования кодонов, где первая таблица частот использования кодонов содержит перечень аминокислот, где каждая аминокислота в таблице ассоциирована с по меньшей мере одним кодоном и каждый кодон ассоциирован с частотой использования; (iii) удаление из таблицы частот использования кодонов любых кодонов, ассоциированных с частотой использования, которая меньше пороговой частоты; (iv) создание нормализованной таблицы частот использования кодонов путем нормализации частот использования кодонов, не удаленных на стадии (iii); и (v) создание оптимизированной нуклеотидной последовательности, кодирующей аминокислотную последовательность, путем выбора кодона для каждой аминокислоты в аминокислотной последовательности на основе частоты использования одного или более кодонов, ассоциированных с аминокислотой в нормализованной таблице частот использования кодонов.1. A computerized method for generating an optimized nucleotide sequence, comprising: (i) obtaining an amino acid sequence, wherein the amino acid sequence encodes a peptide, polypeptide, or protein; (ii) obtaining a first table of codon usage frequencies, wherein the first table of codon usage frequencies comprises a list of amino acids, wherein each amino acid in the table is associated with at least one codon and each codon is associated with a usage frequency; (iii) removing from the table of codon usage frequencies any codons associated with a usage frequency that is less than a threshold frequency; (iv) creating a normalized table of codon usage frequencies by normalizing the frequencies of codons not removed in step (iii); and (v) creating an optimized nucleotide sequence encoding the amino acid sequence by selecting a codon for each amino acid in the amino acid sequence based on the usage frequency of one or more codons associated with the amino acid in the normalized table of codon usage frequencies.
2. Способ по варианту осуществления 1, где нормализация включает:2. The method according to embodiment 1, wherein the normalization comprises:
(а) распределение частот использования каждого кодона, ассоциированного с первой аминокислотой и удаленного на стадии (iii), на оставшиеся кодоны, ассоциированные с первой аминокислотой; и (b) повторение стадии (а) для каждой аминокислоты с получением нормализованной таблицы частот использования кодонов.(a) distributing the usage frequencies of each codon associated with the first amino acid and removed in step (iii) to the remaining codons associated with the first amino acid; and (b) repeating step (a) for each amino acid to obtain a normalized codon usage frequency table.
3. Способ по варианту осуществления 2, где частоту использования удаленных кодонов равномерно распределяют среди оставшихся кодонов.3. The method according to embodiment 2, wherein the frequency of usage of the deleted codons is uniformly distributed among the remaining codons.
4. Способ по варианту осуществления 2, где частоту использования удаленных кодонов распределяют среди оставшихся кодонов пропорционально частоте использования каждого оставшегося кодона.4. The method according to embodiment 2, wherein the frequency of usage of the deleted codons is distributed among the remaining codons in proportion to the frequency of usage of each remaining codon.
5. Способ по любому из предыдущих вариантов осуществления, где выбор кодона для каждой аминокислоты включает:5. The method according to any of the previous embodiments, wherein selecting a codon for each amino acid comprises:
(а) идентификацию в нормализованной таблице частот использования кодонов одного или более кодонов, ассоциированных с первой аминокислотой аминокислотной последовательности; (b) выбор кодона, ассоциированного с первой аминокислотой, где вероятность выбора определенного кодона равна частоте использования, ассоциированной с кодоном, ассоциированным с первой аминокислотой, в нормализованной таблице частот использования кодонов; и(a) identifying in a normalized codon usage table one or more codons associated with the first amino acid of the amino acid sequence; (b) selecting a codon associated with the first amino acid, where the probability of selecting a particular codon is equal to the usage frequency associated with the codon associated with the first amino acid in the normalized codon usage table; and
(с) повторение стадий (а) и (b) до тех пор, пока не будет выбран кодон для каждой аминокислоты в аминокислотной последовательности.(c) repeating steps (a) and (b) until a codon for each amino acid in the amino acid sequence has been selected.
6. Способ по любому из предыдущих вариантов осуществления, где стадию (v) выполняют несколько раз для создания перечня оптимизированных нуклеотидных последовательностей.6. The method according to any of the previous embodiments, wherein step (v) is performed multiple times to generate a list of optimized nucleotide sequences.
7. Способ по любому из предыдущих вариантов осуществления, где пороговую частоту выбирает пользователь.7. The method according to any of the previous embodiments, wherein the threshold frequency is selected by the user.
8. Способ по любому из предыдущих вариантов осуществления, где пороговая частота находится в диапазоне от 5% до 30%, в частности составляет 5%, 10% или 15%, или 20%, или 25%, или 30%, или, в частности, 10%.8. The method according to any of the previous embodiments, wherein the threshold frequency is in the range from 5% to 30%, in particular 5%, 10% or 15%, or 20%, or 25%, or 30%, or in particular 10%.
9. Способ по любому из вариантов осуществления 6-8, дополнительно включающий:9. The method according to any one of embodiments 6-8, further comprising:
определение того, содержит ли каждая оптимизированная нуклеотидная последовательность в перечне или самом последнем обновленном перечне оптимизированных нуклеотидныхdetermining whether each optimized nucleotide sequence in the list or the most recently updated list of optimized nucleotides contains
последовательностей сигнал терминации; иtermination signal sequences; and
обновление перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности из перечня или самого последнего обновленного перечня, если нуклеотидная последовательность содержит один или более сигналов терминации.updating the list of optimized nucleotide sequences by removing any nucleotide sequence from the list or the most recently updated list if the nucleotide sequence contains one or more termination signals.
10. Способ по варианту осуществления 9, где один или более сигналов терминации имеют следующую нуклеотидную последовательность:10. The method of embodiment 9, wherein the one or more termination signals have the following nucleotide sequence:
5'-X1ATCTX2TX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, Т или G.5'-X 1 ATCTX 2 TX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, T or G.
11. Способ по варианту осуществления 10, где один или более сигналов терминации имеют одну или более из следующих нуклеотидных последовательностей:11. The method of embodiment 10, wherein the one or more termination signals have one or more of the following nucleotide sequences:
TATCTGTT; и/илиTATCTGTT; and/or
ТТТТТТ; и/илиTTTTTTT; and/or
AAGCTT; и/илиAAGCTT; and/or
GAAGAGC и/илиGAAGAGC and/or
TCTAGA.TCTAGA.
12. Способ по варианту осуществления 9, где один или более сигналов терминации имеют следующую нуклеотидную последовательность:12. The method of embodiment 9, wherein the one or more termination signals have the following nucleotide sequence:
5'-X1AUCTX2UX3-3', где Х1, Х2 и Х3 независимо выбраны из А, С, U или G.5'-X 1 AUCTX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G.
13. Способ по варианту осуществления 12, где один или более сигналов терминации имеют одну из следующих нуклеотидных последовательностей:13. The method of embodiment 12, wherein the one or more termination signals have one of the following nucleotide sequences:
UAUCUGUU; и/илиUAUCUGUU; and/or
UUUUUU; и/илиUUUUUU; and/or
AAGCUU; и/илиAAGCUU; and/or
GAAGAGC и/илиGAAGAGC and/or
UCUAGA.UCUAGA.
14. Способ по любому из вариантов осуществления 6-13, дополнительно включающий:14. The method according to any one of embodiments 6-13, further comprising:
определение содержания гуанина-цитозина в каждой из оптимизированных нуклеотидных последовательностей в перечне или в самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, где содержание гуанина-цитозина в последовательности представляет собой процент оснований в нуклеотидной последовательности, которые являются гуанином или цитозином;determining the guanine-cytosine content of each of the optimized nucleotide sequences in the list or in the most recently updated list of optimized nucleotide sequences, where the guanine-cytosine content of a sequence is the percentage of bases in the nucleotide sequence that are guanine or cytosine;
обновление перечня оптимизированных нуклеотидных последовательностей путем удаления какой-либо нуклеотидной последовательности из перечня или самого последнего обновленного перечня, если содержание гуанина-цитозина выходит за пределы заданного диапазона содержания гуанина-цитозина.updating the list of optimized nucleotide sequences by removing any nucleotide sequence from the list or the most recently updated list if the guanine-cytosine content is outside the specified guanine-cytosine content range.
15. Способ по варианту осуществления 14, где определение содержания гуанина-цитозина в каждой из оптимизированных нуклеотидных последовательностей для каждой нуклеотидной последовательности включает:15. The method of embodiment 14, wherein determining the guanine-cytosine content in each of the optimized nucleotide sequences for each nucleotide sequence comprises:
определение содержания гуанина-цитозина в первой части нуклеотидной последовательности, и где обновление перечня оптимизированных нуклеотидных последовательностей включает:determination of the guanine-cytosine content in the first part of the nucleotide sequence, and where the update of the list of optimized nucleotide sequences includes:
удаление нуклеотидной последовательности, если содержание гуанина-цитозина в первой части выходит за пределы заданного диапазона содержания гуанина-цитозина.deletion of a nucleotide sequence if the guanine-cytosine content in the first part is outside the specified guanine-cytosine content range.
16. Способ по варианту осуществления 15, где определение содержания гуанина-цитозина в каждой из оптимизированных нуклеотидных последовательностей дополнительно для каждой нуклеотидной последовательности включает:16. The method according to embodiment 15, wherein determining the guanine-cytosine content in each of the optimized nucleotide sequences further for each nucleotide sequence comprises:
определение содержания гуанина-цитозина в одной или более дополнительных частях нуклеотидной последовательности, где дополнительные части не перекрываются друг с другом и с первой частью, и где обновление перечня оптимизированных последовательностей включает:determining the guanine-cytosine content of one or more additional portions of the nucleotide sequence, where the additional portions do not overlap with each other and with the first portion, and where the update of the list of optimized sequences includes:
удаление нуклеотидной последовательности, если содержание гуанина-цитозина в любой части выходит за пределы предварительно заданного диапазона содержания гуанина-цитозина, необязательно, где определение содержания гуанина-цитозина в нуклеотидной последовательности останавливают, когда определено, что содержание гуанина-цитозина в какой-либо части находится вне предварительно заданного диапазона содержания гуанина-цитозина.deleting the nucleotide sequence if the guanine-cytosine content in any portion is outside a predetermined guanine-cytosine content range, optionally wherein the determination of the guanine-cytosine content in the nucleotide sequence is stopped when it is determined that the guanine-cytosine content in any portion is outside a predetermined guanine-cytosine content range.
17. Способ по варианту осуществления 15 или 16, где первая часть и/или одна или более дополнительных частей нуклеотидной последовательности содержат предварительно заданное количество нуклеотидов, где необязательно заданное количество нуклеотидов находится в диапазоне от 5 до 300 нуклеотидов, или от 10 до 200 нуклеотидов, или от 15 до 100 нуклеотидов, или от 20 до 50 нуклеотидов, например, 30 нуклеотидов.17. The method according to embodiment 15 or 16, wherein the first portion and/or one or more additional portions of the nucleotide sequence comprise a predetermined number of nucleotides, wherein the optionally predetermined number of nucleotides is in the range of 5 to 300 nucleotides, or 10 to 200 nucleotides, or 15 to 100 nucleotides, or 20 to 50 nucleotides, such as 30 nucleotides.
18. Способ по варианту осуществления 17, где предварительно заданный диапазон содержания гуанина-цитозина выбирает пользователь.18. The method of embodiment 17, wherein the predetermined range of guanine-cytosine content is selected by the user.
19. Способ по варианту осуществления 17 или 18, где предварительно заданный диапазон содержания гуанина-цитозина составляет от 15% до 75%, или от 40% до 60%, или, в частности, от 30% до 70%.19. The method according to embodiment 17 or 18, wherein the predetermined range of guanine-cytosine content is from 15% to 75%, or from 40% to 60%, or, in particular, from 30% to 70%.
20. Способ по любому из вариантов осуществления 6-19, дополнительно включающий:20. The method according to any one of embodiments 6-19, further comprising:
определение индекса адаптации кодонов каждой из оптимизированных нуклеотидных последовательностей в перечне или самом последнем обновленном перечне оптимизированных нуклеотидных последовательностей, где индекс адаптации кодонов последовательности представляет собой меру предпочтения частоты использования кодона и может принимать значение от 0 до 1;determining the codon adaptation index of each of the optimized nucleotide sequences in the list or the most recently updated list of optimized nucleotide sequences, where the codon adaptation index of a sequence is a measure of the preference for the frequency of codon usage and can take a value from 0 to 1;
обновление перечня или самого последнего обновленного перечня оптимизированных нуклеотидных последовательностей путем удаления любой нуклеотидной последовательности, если ее индекс адаптации кодонов меньше предварительно заданного порогового значения индекса адаптации кодонов или равен ему.updating the list or the most recently updated list of optimized nucleotide sequences by deleting any nucleotide sequence if its codon adaptation index is less than or equal to a predetermined codon adaptation index threshold.
21. Способ по варианту осуществления 20, где пороговое значение индекса адаптации кодонов выбирает пользователь.21. The method of embodiment 20, wherein the codon adaptation index threshold is selected by the user.
22. Способ по варианту осуществления 20 или 21, где пороговое значение индекса адаптации кодонов составляет 0,7, или 0,75, или 0,85, или 0,9, или, в частности, 0,8.22. The method according to embodiment 20 or 21, wherein the codon adaptation index threshold is 0.7, or 0.75, or 0.85, or 0.9, or, in particular, 0.8.
23. Способ по любому из предыдущих вариантов осуществления, где аминокислотная последовательность получена из базы данных аминокислотных последовательностей.23. The method according to any of the previous embodiments, wherein the amino acid sequence is obtained from an amino acid sequence database.
24. Способ по варианту осуществления 23, дополнительно предусматривающий запрос аминокислотной последовательности из базы данных аминокислотных последовательностей, где аминокислотную последовательность получают в ответ на запрос.24. The method of embodiment 23, further comprising querying the amino acid sequence from a database of amino acid sequences, wherein the amino acid sequence is obtained in response to the query.
25. Способ по любому из предыдущих вариантов осуществления, где первую таблицу частот использования кодонов получают из базы данных таблиц частот использования кодонов.25. The method according to any of the previous embodiments, wherein the first table of codon usage frequencies is obtained from a database of codon usage frequency tables.
26. Способ по варианту осуществления 24, дополнительно включающий запрос первой таблицы частот использования кодонов из базы данных таблиц частот использования кодонов, где первую таблицу частот использования кодонов получают в ответ на запрос.26. The method of embodiment 24, further comprising requesting the first table of codon usage frequencies from a database of codon usage frequency tables, wherein the first table of codon usage frequencies is obtained in response to the request.
27. Способ по любому из предыдущих вариантов осуществления, дополнительно предусматривающий отображение по меньшей мере одной оптимизированной нуклеотидной последовательности на экране.27. The method according to any of the previous embodiments, further comprising displaying at least one optimized nucleotide sequence on a screen.
28. Компьютерная программа, содержащая инструкции, которые, когда программа выполняется компьютером, заставляют компьютер выполнять способ по любому из предыдущих вариантов осуществления.28. A computer program comprising instructions that, when executed by a computer, cause the computer to perform the method of any of the preceding embodiments.
29. Система обработки данных, содержащая средства для выполнения способа по любому из предыдущих вариантов осуществления.29. A data processing system comprising means for performing the method according to any of the previous embodiments.
30. Машиночитаемый носитель данных, на котором хранится компьютерная программа по варианту осуществления 28.30. A machine-readable storage medium on which the computer program according to embodiment 28 is stored.
31. Сигнал носителя данных, несущий компьютерную программу по варианту осуществления 28.31. A data carrier signal carrying a computer program according to embodiment 28.
32. Способ синтеза нуклеотидной последовательности, включающий:32. A method for synthesizing a nucleotide sequence, comprising:
выполнение компьютеризированного способа по любому из вариантов осуществления 1-27 для создания по меньшей мере одной оптимизированной нуклеотидной последовательности; иperforming the computerized method of any one of embodiments 1-27 to generate at least one optimized nucleotide sequence; and
синтез по меньшей мере одной из созданных оптимизированных нуклеотидных последовательностей.synthesis of at least one of the created optimized nucleotide sequences.
33. Способ по варианту осуществления 32, где способ дополнительно включает вставку синтезированной оптимизированной последовательности в вектор нуклеиновой кислоты для применения в транскрипции in vitro.33. The method of embodiment 32, wherein the method further comprises inserting the synthesized optimized sequence into a nucleic acid vector for use in in vitro transcription.
34. Способ по варианту осуществления 32 или 33, где способ дополнительно включает вставку одного или более сигналов терминации на 3'-конце синтезированной оптимизированной нуклеотидной последовательности.34. The method according to embodiment 32 or 33, wherein the method further comprises inserting one or more termination signals at the 3' end of the synthesized optimized nucleotide sequence.
35. Способ по варианту осуществления 34, где один или более сигналов терминации кодируются следующей нуклеотидной последовательностью: 5'-X1ATCTX2TX3-3', где Х1, Х2 и Х3 независимо выбраны из А, С, Т или G.35. The method of embodiment 34, wherein the one or more termination signals are encoded by the following nucleotide sequence: 5'-X 1 ATCTX 2 TX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, T or G.
36. Способ по варианту осуществления 34 или 35, где один или более сигналов терминации кодируются одной или более из следующих нуклеотидных последовательностей:36. The method of embodiment 34 or 35, wherein the one or more termination signals are encoded by one or more of the following nucleotide sequences:
TATCTGTT;TATCTGTT;
TTTTTT;TTTTTT;
AAGCTT;AAGCTT;
GAAGAGC и/илиGAAGAGC and/or
TCTAGA.TCTAGA.
37. Способ по любому из вариантов осуществления 34-36, где вставляют более одного сигнала терминации, и указанные сигналы терминации разделяют 10 парами оснований или меньше, например разделяют 5-10 парами оснований.37. The method according to any one of embodiments 34-36, wherein more than one termination signal is inserted, and said termination signals are separated by 10 base pairs or less, such as separated by 5-10 base pairs.
38. Способ по варианту осуществления 36, где более одного сигнала терминации кодируют следующей нуклеотидной последовательностью: (а) 5'-X1ATCTX2TX3-(ZN)-X4ATCTX5TX6-3' или (b) 5'-X1ATCTX2TX3-(ZN)-Х4АТСТХ5ТХ6-(ZM)-Х7АТСТХ8ТХ9-3', где X1, Х2, Х3, Х4, Х5; Х6, Х7, Х8 и Х9 независимо выбраны из А, С, Т или G, ZN представляет собой спейсерную последовательность из N нуклеотидов, a ZM представляет собой спейсерную последовательность из М нуклеотидов, каждый из которых независимо выбран из А, С, Т или G, и где N и/или М независимо составляют 10 или меньше.38. The method of embodiment 36, wherein more than one termination signal is encoded by the following nucleotide sequence: (a) 5'-X 1 ATCTX 2 TX 3 -(Z N )-X 4 ATCTX 5 TX 6 -3' or (b) 5'-X 1 ATCTX 2 TX 3 -(Z N)-X 4 ATCTX 5 TX 6 -(Z M )-X 7 ATCTX 8 TX 9 -3', where X 1 , X 2 , X 3 , X 4 , X 5 ; X 6 , X 7 , X 8 and X 9 are independently selected from A, C, T or G, Z N is a spacer sequence of N nucleotides, and Z M is a spacer sequence of M nucleotides, each of which is independently selected from A, C, T or G, and where N and/or M are independently 10 or less.
39. Способ по любому из вариантов осуществления 33-38, где вектор нуклеиновой кислоты содержит промотор для РНК-полимеразы, функционально связанный с оптимизированной нуклеотидной последовательностью, где необязательно промотор для РНК-полимеразы представляет собой промотор для РНК-полимеразы SP6 или промотор для РНК-полимеразы Т7.39. The method according to any one of embodiments 33-38, wherein the nucleic acid vector comprises a promoter for RNA polymerase operably linked to an optimized nucleotide sequence, wherein optionally the promoter for RNA polymerase is a promoter for SP6 RNA polymerase or a promoter for T7 RNA polymerase.
40. Способ по любому из вариантов осуществления 33-39, где вектор нуклеиновой кислоты представляет собой плазмиду.40. The method according to any one of embodiments 33-39, wherein the nucleic acid vector is a plasmid.
41. Способ по варианту осуществления 40, где плазмиду линеаризуют перед транскрипцией in vitro.41. The method of embodiment 40, wherein the plasmid is linearized prior to in vitro transcription.
42. Способ по варианту осуществления 40, где плазмиду не линеаризуют перед транскрипцией in vitro.42. The method of embodiment 40, wherein the plasmid is not linearized prior to in vitro transcription.
43. Способ по варианту осуществления 42, где плазмида является сверхспиральной.43. The method of embodiment 42, wherein the plasmid is supercoiled.
44. Способ по любому из вариантов осуществления 32-43, где способ дополнительно включает применение по меньшей мере одной из синтезированных оптимизированных нуклеотидных последовательностей в транскрипции in vitro для синтеза мРНК.44. The method according to any one of embodiments 32-43, wherein the method further comprises using at least one of the synthesized optimized nucleotide sequences in in vitro transcription to synthesize mRNA.
45. Способ по варианту осуществления 44, где мРНК синтезируют с помощью РНК-полимеразы SP6.45. The method according to embodiment 44, wherein the mRNA is synthesized using RNA polymerase SP6.
46. Способ по варианту осуществления 45, где РНК-полимераза SP6 представляет собой встречающуюся в природе РНК-полимеразу SP6.46. The method of embodiment 45, wherein the SP6 RNA polymerase is a naturally occurring SP6 RNA polymerase.
47. Способ по варианту осуществления 45, где РНК-полимераза SP6 представляет собой рекомбинантную РНК-полимеразу SP6.47. The method of embodiment 45, wherein the SP6 RNA polymerase is recombinant SP6 RNA polymerase.
48. Способ по варианту осуществления 47, где РНК-полимераза SP6 содержит метку.48. The method of embodiment 47, wherein the SP6 RNA polymerase comprises a label.
49. Способ по варианту осуществления 48, где метка представляет собой гистидиновую метку.49. The method of embodiment 48, wherein the tag is a histidine tag.
50. Способ по варианту осуществления 44, где мРНК синтезируют с помощью РНК-полимеразы Т7.50. The method of embodiment 44, wherein the mRNA is synthesized using T7 RNA polymerase.
51. Способ по любому из вариантов осуществления 44-50, где способ дополнительно включает отдельную стадию копирования и/или наращивания синтезированной мРНК.51. The method according to any one of embodiments 44-50, wherein the method further comprises a separate step of copying and/or extending the synthesized mRNA.
52. Способ по любому из вариантов осуществления 44-50, где копирование и наращивание происходит во время транскрипции in vitro.52. The method according to any one of embodiments 44-50, wherein the copying and extension occurs during in vitro transcription.
53. Способ по любому из вариантов осуществления 44-52, где мРНК синтезируют в реакционной смеси, содержащей NTP в диапазоне концентраций 1-10 мМ каждого NTP, ДНК-матрицу в диапазоне концентраций 0,01-0,5 мг/мл и РНК-полимеразу SP6 в диапазоне концентраций 0,01-0,1 мг/мл.53. The method according to any one of embodiments 44-52, wherein mRNA is synthesized in a reaction mixture containing NTPs in a concentration range of 1-10 mM each NTP, DNA template in a concentration range of 0.01-0.5 mg/ml, and SP6 RNA polymerase in a concentration range of 0.01-0.1 mg/ml.
54. Способ по варианту осуществления 53, где реакционная смесь содержит NTP в концентрации 5 мМ каждого NTP, ДНК-матрицу в концентрации 0,1 мг/мл и РНК-полимеразу SP6 в концентрации 0,05 мг/мл.54. The method of embodiment 53, wherein the reaction mixture comprises NTPs at a concentration of 5 mM of each NTP, DNA template at a concentration of 0.1 mg/ml, and RNA polymerase SP6 at a concentration of 0.05 mg/ml.
55. Способ по любому из вариантов осуществления 4 4-54, где мРНК синтезируют при температуре в диапазоне 37-56°С.55. The method according to any one of embodiments 4 4-54, wherein the mRNA is synthesized at a temperature in the range of 37-56°C.
56. Способ по любому из вариантов осуществления 53-55, где NTP представляют собой встречающиеся в природе NTP.56. The method according to any one of embodiments 53-55, wherein the NTPs are naturally occurring NTPs.
57. Способ по любому из вариантов осуществления 53-55, где NTP предусматривают модифицированные NTP.57. The method of any one of embodiments 53-55, wherein the NTPs include modified NTPs.
58. Способ по любому из вариантов осуществления 32-57, где способ дополнительно включает трансфекцию синтезированной оптимизированной нуклеотидной последовательности в клетку либо in vitro, либо in vivo.58. The method according to any one of embodiments 32-57, wherein the method further comprises transfecting the synthesized optimized nucleotide sequence into a cell either in vitro or in vivo.
59. Способ по варианту осуществления 58, где в трансфицированной клетке определяют уровень экспрессии белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью.59. The method according to embodiment 58, wherein the expression level of the protein encoded by the synthesized optimized nucleotide sequence is determined in the transfected cell.
60. Способ по варианту осуществления 58 или 59, где определяют функциональную активность белка, кодируемого синтезированной оптимизированной нуклеотидной последовательностью.60. The method according to embodiment 58 or 59, wherein the functional activity of the protein encoded by the synthesized optimized nucleotide sequence is determined.
61. Способ по любому из вариантов осуществления 1-27, дополнительно включающий синтез эталонной нуклеотидной последовательности, кодирующей аминокислотную последовательность, и по меньшей мере одной оптимизированной нуклеотидной последовательности в соответствии со способом по любому из вариантов осуществления 32-60, и приведение в контакт эталонной нуклеотидной последовательности и по меньшей мере одной оптимизированной нуклеотидной последовательности с отдельной клеткой или организмом, где клетка или организм, приведенный в контакт с по меньшей мере одной синтезированной оптимизированной нуклеотидной последовательностью, продуцируют повышенный выход белка, кодируемого оптимизированной нуклеотидной последовательностью, по сравнению с выходом белка, кодируемого эталонной нуклеотидной последовательностью, продуцируемой клеткой или организмом, приведенными в контакт с синтезированной эталонной нуклеотидной последовательностью.61. The method of any one of embodiments 1-27, further comprising synthesizing a reference nucleotide sequence encoding an amino acid sequence and at least one optimized nucleotide sequence according to the method of any one of embodiments 32-60, and contacting the reference nucleotide sequence and the at least one optimized nucleotide sequence with a single cell or organism, wherein the cell or organism contacted with the at least one synthesized optimized nucleotide sequence produces an increased yield of a protein encoded by the optimized nucleotide sequence, compared to the yield of a protein encoded by the reference nucleotide sequence produced by the cell or organism contacted with the synthesized reference nucleotide sequence.
62. Способ по любому из вариантов осуществления 32-60, где способ дополнительно включает получение терапевтической композиции, содержащей мРНК, которая кодирует терапевтический пептид, полипептид или белок, для применения при доставке субъекту или при лечении субъекта.62. The method of any one of embodiments 32-60, wherein the method further comprises providing a therapeutic composition comprising mRNA that encodes a therapeutic peptide, polypeptide, or protein for use in delivering to a subject or in treating a subject.
63. Способ по варианту осуществления 62, где мРНК кодирует белок, представляющий собой регулятор трансмембранной проводимости при муковисцидозе (CFTR).63. The method of embodiment 62, wherein the mRNA encodes a protein that is a cystic fibrosis transmembrane conductance regulator (CFTR).
64. Способ по любому из вариантов осуществления 1-27, где по меньшей мере одна оптимизированная нуклеотидная последовательность при синтезе сконфигурирована для увеличения экспрессии белка, кодируемого по меньшей мере одной оптимизированной нуклеотидной последовательностью, по сравнению с экспрессией белка, кодируемого эталонной нуклеотидной последовательностью, при синтезе.64. The method according to any one of embodiments 1-27, wherein the at least one optimized nucleotide sequence, when synthesized, is configured to increase the expression of the protein encoded by the at least one optimized nucleotide sequence, compared to the expression of the protein encoded by the reference nucleotide sequence, when synthesized.
65. Способ по любому из вариантов осуществления 61-64, где эталонная нуклеотидная последовательность представляет собой (а) встречающуюся в природе нуклеотидную последовательность, кодирующую аминокислотную последовательность; или (b) нуклеотидную последовательность, кодирующую аминокислотную последовательность, созданную посредством способа, отличного от способа по любому из вариантов осуществления 1-27.65. The method of any one of embodiments 61-64, wherein the reference nucleotide sequence is (a) a naturally occurring nucleotide sequence encoding an amino acid sequence; or (b) a nucleotide sequence encoding an amino acid sequence generated by a method other than the method of any one of embodiments 1-27.
66. Синтезированная оптимизированная нуклеотидная последовательность, созданная в соответствии со способами по любому из вариантов осуществления 32-57 и 62-65, для применения в терапии.66. A synthesized optimized nucleotide sequence created according to the methods of any one of embodiments 32-57 and 62-65, for use in therapy.
67. Способ лечения, включающий введение синтезированной оптимизированной нуклеотидной последовательности, созданной в соответствии со способом по любому из вариантов осуществления 32-57 и 62-65, субъекту-человеку, нуждающемуся в таком лечении.67. A method of treatment comprising administering a synthesized optimized nucleotide sequence created in accordance with the method of any one of embodiments 32-57 and 62-65 to a human subject in need of such treatment.
68. Синтезированная in vitro нуклеиновая кислота, содержащая оптимизированную нуклеотидную последовательность, состоящую из кодонов, ассоциированных с частотой использования, которая равна 10% или больше; где оптимизированная нуклеотидная последовательность:68. An in vitro synthesized nucleic acid comprising an optimized nucleotide sequence consisting of codons associated with a usage frequency that is 10% or greater; wherein the optimized nucleotide sequence:
(i) не содержит сигнал терминации, имеющий одну из следующих нуклеотидных последовательностей:(i) does not contain a termination signal having one of the following nucleotide sequences:
5'-X1AUCUX2UX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, U или G; и 5'-X1AUCUX2UX3-3', где X1, Х2 и Х3 независимо выбраны из А, С, U или G;5'-X 1 AUCUX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G; and 5'-X 1 AUCUX 2 UX 3 -3', where X 1 , X 2 and X 3 are independently selected from A, C, U or G;
(ii) не содержит каких-либо отрицательных цис-регуляторных элементов и отрицательных повторяющихся элементов; и(ii) does not contain any negative cis-regulatory elements and negative repeat elements; and
(iii) имеет индекс адаптации кодонов больше 0,8;(iii) has a codon adaptation index greater than 0.8;
где при разделении на неперекрывающиеся части длиной 30 нуклеотидов каждая часть оптимизированной нуклеотидной последовательности характеризуется диапазоном содержания гуанина-цитозина от 30% до 70%.where, when divided into non-overlapping parts of 30 nucleotides in length, each part of the optimized nucleotide sequence is characterized by a range of guanine-cytosine content from 30% to 70%.
69. Синтезированная in vitro нуклеиновая кислота по варианту осуществления 67, где оптимизированная нуклеотидная последовательность не содержит сигнал терминации, имеющий одну из следующих последовательностей: TATCTGTT; ТТТТТТ; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA.69. The in vitro synthesized nucleic acid of embodiment 67, wherein the optimized nucleotide sequence does not comprise a termination signal having one of the following sequences: TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA.
70. Синтезированная in vitro нуклеиновая кислота по варианту осуществления 68 или 69, где нуклеиновая кислота представляет собой мРНК.70. The in vitro synthesized nucleic acid of embodiment 68 or 69, wherein the nucleic acid is mRNA.
71. Синтезированная in vitro нуклеиновая кислота по любому из вариантов осуществления 68-70 для применения в терапии.71. An in vitro synthesized nucleic acid according to any one of embodiments 68-70 for use in therapy.
Claims (97)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US63/021,345 | 2020-05-07 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2847257C1 true RU2847257C1 (en) | 2025-10-01 |
Family
ID=
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018089846A1 (en) * | 2016-11-10 | 2018-05-17 | Translate Bio, Inc. | Subcutaneous delivery of messenger rna |
| WO2018237066A1 (en) * | 2017-06-20 | 2018-12-27 | The United States Of America, As Represented By The Secretary, Department Of Health And Human Services | Codon-optimized human npc1 genes for the treatment of niemann-pick type c1 deficiency and related conditions |
| RU2018110872A (en) * | 2015-08-28 | 2019-10-01 | Куревак Аг | ARTIFICIAL NUCLEIC ACID MOLECULES |
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2018110872A (en) * | 2015-08-28 | 2019-10-01 | Куревак Аг | ARTIFICIAL NUCLEIC ACID MOLECULES |
| WO2018089846A1 (en) * | 2016-11-10 | 2018-05-17 | Translate Bio, Inc. | Subcutaneous delivery of messenger rna |
| WO2018237066A1 (en) * | 2017-06-20 | 2018-12-27 | The United States Of America, As Represented By The Secretary, Department Of Health And Human Services | Codon-optimized human npc1 genes for the treatment of niemann-pick type c1 deficiency and related conditions |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20230245721A1 (en) | Generation of optimized nucleotide sequences | |
| US20230146324A1 (en) | Multiparametric nucleic acid optimization | |
| US20210230578A1 (en) | Removal of dna fragments in mrna production process | |
| EP3682905B1 (en) | Modified nucleosides, nucleotides, and nucleic acids, and uses thereof | |
| CN106661580B (en) | Antisense oligonucleotides for treating pompe disease | |
| US20190017100A1 (en) | Method for analysis of an rna molecule | |
| JP2020526197A (en) | Integration of unnatural nucleotides and methods thereof | |
| KR20180131577A (en) | New minimal UTR sequence | |
| US11072808B2 (en) | Methods and compositions for increasing capping efficiency of transcribed RNA | |
| JP2024515344A (en) | Compositions and methods for inhibiting expression of complement component 3 | |
| RU2847257C1 (en) | Creation of optimized nucleotide sequences | |
| WO2024026287A2 (en) | Synthesis of substoichiometric chemically modified mrnas by in vitro transcription | |
| US20250075201A1 (en) | Screening codon-optimized nucleotide sequences | |
| EP4069255B1 (en) | Identifying non-productive splice sites | |
| US11898186B1 (en) | Compositions and methods for preparing capped mRNA | |
| Ramos | Disease-associated variants in human tRNA modification enzymes and their impact on cellular physiology | |
| WO2025087417A1 (en) | Efficient, low off-target gene editing tool | |
| Jeandard | RNA import into mitochondria of human cells: large-scale identification and therapeutic applications | |
| JP2009045043A (en) | Vector for expressing recombinant protein, recombinant microorganism, and method for producing recombinant protein | |
| HK40032374B (en) | Modified nucleosides, nucleotides, and nucleic acids, and uses thereof | |
| HK40032374A (en) | Modified nucleosides, nucleotides, and nucleic acids, and uses thereof | |
| HK40009706B (en) | Modified nucleosides, nucleotides, and nucleic acids, and uses thereof | |
| Kobylarz | Yeast pseudo-haploinsufficiency as a model system for human ribosomopathies |