CN118302818A - 获得目标多价免疫球蛋白单可变结构域的序列信息 - Google Patents
获得目标多价免疫球蛋白单可变结构域的序列信息 Download PDFInfo
- Publication number
- CN118302818A CN118302818A CN202280077652.8A CN202280077652A CN118302818A CN 118302818 A CN118302818 A CN 118302818A CN 202280077652 A CN202280077652 A CN 202280077652A CN 118302818 A CN118302818 A CN 118302818A
- Authority
- CN
- China
- Prior art keywords
- read
- sequence
- isv
- multivalent
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K16/00—Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2317/00—Immunoglobulins specific features
- C07K2317/10—Immunoglobulins specific features characterized by their source of isolation or production
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2317/00—Immunoglobulins specific features
- C07K2317/50—Immunoglobulins specific features characterized by immunoglobulin fragments
- C07K2317/56—Immunoglobulins specific features characterized by immunoglobulin fragments variable (Fv) region, i.e. VH and/or VL
- C07K2317/569—Single domain, e.g. dAb, sdAb, VHH, VNAR or nanobody®
Landscapes
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种用于获得多个目标多价免疫球蛋白单可变结构域(ISV)中每一个的序列信息的计算机实现的方法包括:接收多个组分ISV中的每一个的序列信息,其中每个目标多价免疫球蛋白单可变结构域(ISV)包含多个这些组分ISV;基于接收的序列信息生成多价ISV的候选序列集合;获得测序信息的多个读段组,其中每个读段组对应于该多个目标多价ISV中的特定目标多价ISV;对于读段组中的每个读段:从该候选序列集合中确定一个或多个命中候选序列,其中该一个或多个命中候选序列中的每一个均包含与该读段的对应部分的匹配部分,并且使用该命中候选序列、该读段和一个或多个衍生自该读段的序列为每个命中候选序列生成共有矩阵,其中对于比对序列中的多个位置中的每个位置,该共有矩阵指定该命中候选序列、该读段和该一个或多个衍生自该读段的序列之间的共有序列,对于每个读段组基于该读段组中每个读段的共有矩阵生成每个命中候选序列的组装矩阵;以及基于为与该目标多价ISV对应的读段组确定的一个或多个组装矩阵,确定每个目标多价ISV的序列信息。
Description
技术领域
本说明书涉及基于接收的多个组分免疫球蛋白单可变结构域(ISV)的序列信息来获得目标多价ISV的序列信息。
背景技术
获得多价ISV的序列信息(例如DNA序列)是一项困难的任务。例如,多价免疫球蛋白单可变结构域(ISV)的序列信息通常太大而无法使用常规测序技术立即测序。对多价ISV的片段进行测序以获得整个多价ISV的序列的技术需要将每个片段的序列信息(或其部分)连接在一起,这是一项耗时且困难的任务,因为例如许多重复序列可以存在于每个测序片段中。
发明内容
根据本说明书的第一方面,描述了用于获得多个目标多价免疫球蛋白单可变结构域(ISV)中的每一个的序列信息的计算机实现的方法。该方法包括:接收多个组分ISV中的每一个的序列信息,其中每个目标多价免疫球蛋白单可变结构域(ISV)包含多个这些组分ISV;基于接收的序列信息生成多价ISV的候选序列集合;获得测序信息的多个读段组,其中每个读段组对应于该多个目标多价ISV中的特定目标多价ISV;对于读段组中的每个读段:从候选序列集合中确定一个或多个命中候选序列,其中该一个或多个命中候选序列中的每一个均包含与读段的对应部分的匹配部分,以及使用命中候选序列、读段和一个或多个衍生自读段的序列为每个命中候选序列生成共有矩阵,其中对于比对序列中的多个位置中的每个位置,共有矩阵指定命中候选序列、读段和一个或多个衍生自读段的序列之间的共有序列,对于每个读段组基于该读段组中每个读段的共有矩阵生成每个命中候选序列的组装矩阵;以及基于为与该目标多价ISV对应的读段组确定的一个或多个组装矩阵,确定每个目标多价ISV的序列信息。
这可以允许以自动化且快速的方式确定多个目标多价ISV中的每一个的序列信息,例如通过在几分钟内确定96个克隆的序列信息。
读段可以包括读段的多个位置中的每个位置的字母代码。每个字母代码可以指定主要碱基的字母代码或歧义字母代码。对于读段,从候选序列集合中确定一个或多个命中候选序列可包括从读段的末端去除一个或多个字母代码,以针对多次迭代中的每次迭代产生缩短的读段。该确定还可以包括在迭代的缩短读段和每个候选序列之间执行模式匹配过程。该确定可以进一步包括:当迭代的缩短的读段与特定候选序列匹配时,将该特定候选序列添加到该一个或多个命中候选序列。
这可以允许确定每个目标多价ISV的序列信息,尽管例如在测序过程中存在错误或失误;一次去除少量字母代码会导致每次迭代时命中候选序列较少,因此更有可能确定目标多价ISV的准确序列信息。
读段可以指定每个位置的测序质量。对于读段,从候选序列集合中确定一个或多个命中候选序列可以包括接收截断参数;确定经修剪的读段,包括去除该读段中每个具有的测序质量低于由该截断参数指定的值的一个或多个字母代码;确定该读段的起始位置,并去除该起始位置之前的读段的字母代码;确定该读段中第一指定歧义字母代码的位置;并且去除读段的具有从所确定的位置开始直到读段的结束位置的位置的字母代码。
这有助于确保读段具有足够高的质量。
命中候选序列中的每个候选序列可以包括对应于读段组中的每个读段的相应匹配部分。
这可以帮助确保命中候选序列对于每个读段都是有效的。
比对序列可以通过在命中候选序列、读段和一个或多个衍生自读段的序列之间进行多序列比对MSA来确定。多序列比对可被配置为比对命中候选序列、读段和一个或多个衍生自读段的序列中的每一个,而不在比对序列中引入任何空位。这可以帮助找到“完美”的比对,因此可以在共有矩阵中获得更有意义的结果(即,即更少由于插入空位而导致的情况)。
一个或多个衍生自读段的序列可以包含以下至少之一:经修剪的读段,其中去除该读段中每个具有的测序质量低于由接收的截断参数指定的值的一个或多个字母代码;以及经碱基识别的序列,其中该读段中具有歧义字母代码的位置被主要碱基的字母代码替换。
多个读段组中的每一组可包含该组的相应目标多价ISV的一个或多个正向读段以及相应目标多价ISV的一个或多个反向读段。
基于接收的序列信息生成多价ISV的候选序列集合可以包括:接收一个或多个接头中每一个的序列信息;接收特定限制性酶识别位点的指示;以及使用该一个或多个接头的测序信息和该特定限制性酶识别位点的指示来生成多价ISV的候选序列集合。
共有矩阵可以包括在比对序列中的多个位置中的每个位置处针对主要碱基字母代码集合中的每个主要碱基字母代码的得分。对于读段组中的每个读段,以及对于比对序列中的每个位置,组装矩阵可以包含主要碱基的字母代码,或者表示对于该读段的位置不能确定主要碱基的字母代码的空符号。
每个组分ISV可以选自VL、VH、VHH、人源化VHH和骆驼化VH。每个组分ISV可以是单价ISV。
每个目标多价ISV的序列信息可以包含核酸序列。每个组分ISV的序列信息可以包含核酸序列。核酸序列可以是DNA序列。
根据本说明书的进一步方面,描述了一种装置,其包括被配置为执行本文描述的方法中的任何一个或多个的方法的一个或多个处理器。
根据本说明书的另一方面,描述了一种包括指令的计算机可读存储介质,这些指令当由一个或多个处理器执行时使得该一个或多个处理器执行本文所述的方法中的任何一个或多个的方法。
附图说明
为了使本发明更加容易理解,现在将参考附图仅通过示例的方式描述本发明的实施例,其中:
图1示出了示例性多价ISV。
图2示出了用于获得多价ISV的序列信息的示例性方法的流程图。
图3示出了目标多价ISV的共有矩阵的示例部分。
图4示出了目标多价ISV的组装矩阵的示例部分。
图5示出了为两个多价ISV中的每一个确定的示例性DNA序列。
图6示出了为两个多价ISV中的每一个确定的示例性氨基酸序列。
图7是用于执行本文描述的方法的系统/装置的示意图。
具体实施方式
本文描述的各种示例性实施方式涉及用于获得多价ISV的序列信息(例如核酸序列,如DNA序列)的系统和方法。具体地,所描述的系统和方法基于形成多价ISV的组分ISV的序列信息(例如DNA序列)生成多价ISV文库的理论序列集合。将理论序列(其在本文中也可以称为理论构建体)与针对多价ISV的片段获得的测序结果(或读段)以及衍生自测序结果的一个或多个序列进行比较,以便确定多价ISV的序列信息。通过这种方式,可以以自动化、稳健的方式高精度地获得ISV的序列信息。
目标多价ISV文库是从多个组分ISV获得的。多个组分ISV可包含一个或多个单价ISV、一个或多个二价ISV、一个或多个三价ISV、或已确定整个组分ISV的序列信息的任何其他组分ISV。在一些实施例中,每个组分免疫球蛋白单可变结构域可以是单价ISV。
使用标准技术从多个组分ISV创建目标多价ISV文库。例如,提取并纯化每个ISV的基因组DNA(或cDNA),随后利用物理方法或酶促方法(例如使用限制性酶)进行消化,以产生更小的双链片段。然后将接头(合成DNA的短双链片段)连接到这些消化的DNA片段的末端。随后,DNA文库被克隆扩增,以增加测序过程中从每个目标片段检测到的信号。在扩增过程中,文库中的每个DNA片段都会结合到载体或流动池的表面,并且可以使用PCR进行扩增以创建相同的克隆。该扩增产生DNA簇,每个DNA簇源自代表多个组分ISV之一的单个文库片段。
然后使用本领域技术人员熟知的多种测序方法之一对目标多价ISV的DNA文库进行测序,这些测序方法包括高通量下一代测序(NGS)技术,例如454焦磷酸测序、IonTorrent半导体测序、通过连接测序(SOLiD)或Illumina序列。例如,可以将DNA片段与DNA聚合酶和跟模板链的3'末端杂交的引物一起放入孔中,然后合成每个片段的完整互补链。因此,多个组分ISV的DNA序列和将组分ISV(和/或共同区域)连接在一起的一个或多个接头的DNA序列可以使用多个用于测序的引物(包括例如一个或多个正向引物和/或一个或多个反向引物)以及限制性酶获得。
例如,可以使用一个或多个微孔板对目标多价ISV文库进行测序,其中微孔板的每个孔对应于通过使用组分ISV的不同组合和/或用于测序的不同引物产生的多价ISV的不同片段。作为具体实例,每个引物可以使用不同的96孔板,并且不同孔板的相应位置可以对应于相同的克隆。例如,第一板中的孔A01可以对应于使用正向引物测序的克隆,并且第二板的孔A01可以对应于使用反向引物测序的相同克隆。可替代地,可以使用不同的引物对单个板进行测序,其中通过不同孔中的各种引物中的特定引物对每个克隆进行测序。
图1示出了示例目标多价ISV 100。图1所示的多价ISV 100是五价ISV,由通过接头106连接在一起的五个单价ISV 101、102、103、104、105组成。每个单价ISV可以针对同一靶标的不同位点(即抗原),或针对不同靶标。
术语“免疫球蛋白单可变结构域”(ISV)可与“单可变结构域”互换使用,定义了其中抗原结合位点存在于单个免疫球蛋白结构域上并由其形成的免疫球蛋白分子。这将免疫球蛋白单可变结构域与“常规”免疫球蛋白(例如单克隆抗体)或其片段(例如Fab、Fab'、F(ab’)2、scFv、双-scFv)(其中两个免疫球蛋白结构域,特别是两个可变结构域,相互作用以形成抗原结合位点)区分开来。通常,在常规免疫球蛋白中,重链可变结构域(VH)和轻链可变结构域(VL)相互作用形成抗原结合位点。在这种情况下,VH和VL的互补决定区(CDR)将有助于抗原结合位点,即总共6个CDR将参与抗原结合位点的形成。
鉴于上述定义,常规4链抗体(如IgG、IgM、IgA、IgD或IgE分子;本领域已知的)或Fab片段、F(ab’)2片段、Fv片段如二硫键连接的Fv或scFv片段、或衍生自这种常规4链抗体的双抗体(本领域已知的)的抗原结合结构域通常不被视为免疫球蛋白单可变结构域,因为在这些情况下,与抗原的相应表位的结合通常不是通过一个(单个)免疫球蛋白结构域发生的,而是通过一对(相关的)免疫球蛋白结构域如轻链和重链可变结构域发生的,即通过共同与相应抗原的表位结合的免疫球蛋白结构域的VH-VL对发生的。
相反,免疫球蛋白单可变结构域能够特异性结合抗原的表位,而不与另外的免疫球蛋白可变结构域配对。免疫球蛋白单可变结构域的结合位点由单个VH、单个VHH或单个VL结构域形成。
因此,单可变结构域可以是轻链可变结构域序列(例如,VL-序列)或其合适的片段;或重链可变结构域序列(例如,VH序列或VHH序列)或其合适的片段;只要其能够形成单个抗原结合单元(即,基本上由单可变结构域组成的功能性抗原结合单元,使得单个抗原结合结构域不需要与另一个可变结构域相互作用来形成功能性抗原结合单元)。
免疫球蛋白单可变结构域(ISV)可以是例如重链ISV,例如VH、VHH,包括骆驼化的VH或人源化VHH。在一个实施例中,它是VHH,包括骆驼化VH或人源化VHH。重链ISV可衍生自常规四链抗体或重链抗体。
例如,免疫球蛋白单可变结构域可以是单结构域抗体(或适合用作单结构域抗体的氨基酸序列)、“dAb”或dAb(或适合用作dAb的氨基酸序列)或ISV(如本文所定义,并且包括但不限于VHH);其他单可变结构域,或其任何一个的任何合适的片段。
具体地,免疫球蛋白单可变结构域可以是ISV(例如VHH,包括人源化VHH或骆驼化VH)或其合适的片段。[注意:和是Ablynx N.V.公司的注册商标]
“VHH结构域”,也称为VHHs、VHH抗体片段和VHH抗体,最初被描述为“重链抗体”(即“缺乏轻链的抗体”;Hamers-Casterman等人,Nature[自然]363:446-448,1993)的抗原结合免疫球蛋白可变结构域。选择术语“VHH结构域”是为了将这些可变结构域与存在于常规4链抗体中的重链可变结构域(本文称为“VH结构域”)和存在于常规4链抗体中的轻链可变结构域(本文称为“VL结构域”)区分开来。对于VHH的进一步描述,请参考Muyldermans的综述文章(Reviews in Molecular Biotechnology[分子生物技术综述]74:277-302,2001)。
免疫球蛋白序列例如VHH的生成已在多种出版物中广泛描述,其中包括WO 94/04678、Hamers-Casterman等人1993和Muyldermans等人2001(Reviews in MolecularBiotechnology[分子生物技术综述]74:277-302,2001)。在这些方法中,用靶抗原免疫骆驼科动物以诱导针对所述靶抗原的免疫应答。进一步筛选从所述免疫获得的VHH库中结合靶抗原的VHH。
在这些情况下,抗体的生成需要纯化的抗原用于免疫和/或筛选。抗原可以从天然来源纯化,或者在重组生产过程中纯化。可以使用此类抗原的肽片段进行免疫和/或免疫球蛋白序列的筛选。
不同来源的免疫球蛋白序列,包括小鼠、大鼠、兔、驴、人和骆驼免疫球蛋白序列,可以在本文描述的方法中进行测序。而且,可以在本文描述的方法中对完全人的、人源化的或嵌合的序列进行测序。例如,骆驼科动物免疫球蛋白序列和人源化骆驼科动物免疫球蛋白序列,或骆驼化结构域抗体,例如如Ward等人(参见例如WO 94/04678和Riechmann,FebsLett.[欧洲生化学会联合会快报],339:285-290,1994和Prot.Eng[蛋白质工程].,9:531-537,1996)所描述的骆驼化dAb可以在本文描述的方法中被测序。此外,ISV融合形成多价和/或多特异性构建体(对于含有一个或多个VHH结构域的多价和多特异性多肽及其制备,还参考Conrath等人,J.Biol.Chem.[生物化学杂志],第276卷,10.7346-7350,2001,以及例如WO 96/34103和WO 99/23221)。
“人源化VHH”包含对应于天然存在的VHH结构域的氨基酸序列的氨基酸序列,但其已经“人源化”,即通过用出现在来自人的常规4链抗体的VH结构域的一个或多个相应位置(例如上文所示)的一个或多个氨基酸残基替换所述天然存在的VHH序列的氨基酸序列中的一个或多个氨基酸残基(特别是框架序列中的一个或多个氨基酸残基)。这可以以本身已知的方式进行,这对于技术人员来说是清楚的,例如基于现有技术(例如WO 2008/020079)。再次,应当注意,这样的人源化VHH可以以本身已知的任何合适的方式获得,因此并不严格限于使用包含天然存在的VHH结构域的多肽作为起始材料获得的多肽。
“骆驼化VH”包含对应于天然存在的VH结构域的氨基酸序列的氨基酸序列,但其已经“骆驼化”,即通过用(骆驼)重链抗体的VHH结构域中一个或多个相应位置上出现的一个或多个氨基酸残基替换常规4链抗体的天然存在的VH结构域的氨基酸序列中的一个或多个氨基酸残基。这可以以本身已知的方式来执行,这对于技术人员来说是清楚的,例如基于现有技术(例如Davies和Riechman(1994和1996),同上)中的描述。这种“骆驼化”取代插入到形成和/或存在于VH-VL界面的氨基酸位置处,和/或所谓的骆驼科标志性残基处,如本文所定义(参见例如WO 94/04678以及Davies和Riechmann(1994和1996),同上)。在一个实施例中,用作生成或设计骆驼化VH的起始材料或起始点的VH序列是来自哺乳动物的VH序列,例如人的VH序列,例如VH3序列。然而,应当注意的是,这样的骆驼化VH可以以本身已知的任何合适的方式获得,因此并不严格限于使用包含天然存在的VH结构域的多肽作为起始材料获得的多肽。
免疫球蛋白单可变结构域序列的结构可以被认为由四个框架区(“FR”)构成,其在本领域和本文中分别被称为“框架区1”(“FR1”);“框架区2”(“FR2”);“框架区3”(“FR3”);和“框架区4”(“FR4”);这些框架区被三个互补决定区(“CDR”)中断,其在本领域和本文中分别被称为“互补决定区1”(“CDR1”);“互补决定区2”(“CDR2”);和“互补决定区3”(“CDR3”)。
在这样的免疫球蛋白序列中,框架序列可以是任何合适的框架序列,并且合适的框架序列的实例对于技术人员来说是清楚的,例如基于标准手册和进一步的披露以及本文提到的现有技术。
框架序列是免疫球蛋白框架序列或衍生自免疫球蛋白框架序列(例如,通过人源化或骆驼化)的框架序列(的合适组合)。例如,框架序列可以是衍生自轻链可变区(例如VL序列)和/或重链可变区(例如VH序列或VHH序列)的框架序列。在一个特定方面,框架序列是衍生自VHH-序列的框架序列(其中所述框架序列可以任选地已经部分或完全人源化)或者是已经骆驼化的常规VH序列(如本文所定义)。
具体地,本文所述方法中使用的ISV序列中存在的框架序列可以含有一个或多个标志性残基(如本文定义),使得ISV序列是ISV,例如VHH,包括人源化VHH或骆驼化VH。此类框架序列(的合适组合)的非限制性实例将从本文的进一步披露中变得清楚。
VH结构域和VHH结构域中的氨基酸残基总数通常在110至120的范围内,通常在112至115之间。然而,应当注意,更小和更长的序列也可以适合于本文描述的目的。
然而,应当注意的是,在本方法中测序的多价ISV多肽中包含的ISV不限于ISV序列(或用于表达它的核苷酸序列)的来源,也不限于生成或获得(或已经生成或获得)ISV序列或核苷酸序列的方式。因此,ISV序列可以是天然存在的序列(来自任何合适的物种)或合成或半合成的序列。在具体但非限制性方面,ISV序列是天然存在的序列(来自任何合适的物种)或合成或半合成的序列,包括但不限于“人源化”(如本文所定义)免疫球蛋白序列(例如部分或完全人源化的小鼠或兔免疫球蛋白序列,特别是部分或完全人源化的VHH序列)、“骆驼化”(如本文所定义)免疫球蛋白序列(特别是骆驼化VH序列),以及通过技术(诸如亲和力成熟(例如,从合成的、随机的或天然存在的免疫球蛋白序列开始)、CDR移植、贴面、组合衍生自不同免疫球蛋白序列的片段、使用重叠引物的PCR组装和技术人员熟知的用于工程改造免疫球蛋白序列的类似技术)获得的ISV;或任何上述的任何合适的组合。
类似地,核苷酸序列可以是天然存在的核苷酸序列或合成或半合成的序列,并且可以例如是通过PCR从合适的天然存在的模板分离的序列(例如从细胞分离的DNA或RNA),从文库(特别是表达文库)中分离的核苷酸序列,通过将突变引入天然存在的核苷酸序列而制备的核苷酸序列(使用本身已知的任何合适技术,如错配PCR),使用重叠引物通过PCR制备的核苷酸序列,或使用本身已知的DNA合成技术制备的核苷酸序列。
一般来说,ISV(特别是VHH序列,包括(部分)人源化VHH序列和骆驼化VH序列)的特征在于在一个或多个框架序列(同样如本文进一步描述)中存在一个或多个“标志性残基”(如本文所述)。因此,一般来说,ISV可以定义为具有以下(一般)结构的免疫球蛋白序列
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
其中FR1至FR4分别指框架区1至4,并且其中CDR1至CDR3分别指互补决定区1至3,并且其中这些标志性残基中的一个或多个如本文进一步定义。
特别地,ISV可以是具有以下(一般)结构的免疫球蛋白序列
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
其中FR1至FR4分别指框架区1至4,并且其中CDR1至CDR3分别指互补决定区1至3,并且其中框架序列如本文进一步定义。
更具体地,ISV可以是具有以下(一般)结构的免疫球蛋白序列
FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4
其中FR1至FR4分别指框架区1至4,并且其中CDR1至CDR3分别指互补决定区1至3,并且其中:
根据Kabat编号在位置11、37、44、45、47、83、84、103、104和108处的氨基酸残基中的一个或多个选自以下表A中提到的标志性残基。
表A:ISV中的标志性残基
如本文所用,VHH是仅有重链的抗体(HcAb),其大小约为15kDa,并且天然产生于例如骆驼(VHH,来自骆驼、羊驼、单峰骆驼和美洲驼)和软骨鱼(VNAR,来自鲨鱼)中。VHH对应于重链抗体的可变区。
ISV与常规抗体相比具有以下优势:它们比IgG分子小约十倍,因此可以通过体外表达产生正确折叠的功能性ISV,同时实现高产率。此外,ISV非常稳定,能够抵抗蛋白酶的作用,并且可以很容易地被工程改造为二价或多价形式。
如本文所用,术语“单价ISV”表示包含单一ISV或基本上由其组成的化合物。
如本文所用,术语“多价ISV”表示将两个或更多个ISV组合在单个分子内的化合物。
一般而言,术语“多价”表示多肽中存在多个ISV。在一个实施例中,多肽是“二价的”,即包含两个ISV或由其组成。在一个实施例中,多肽是“三价的”,即包含三个ISV或由其组成。在另一个实施例中,多肽是“四价的”,即包含四个ISVD或由其组成。因此,本文所述方法中测序的多肽可以是“二价”、“三价”、“四价”、“五价”、“六价”、“七价”、“八价”、“九价”等,即,该多肽分别包括以下或由以下组成:两个、三个、四个、五个、六个、七个、八个、九个等ISV。在一个实施例中,多价ISV多肽是三价的。在另一个实施例中,多价ISV多肽是四价的。在另一个实施例中,多价ISV多肽是五价的。
在一个实施例中,多价ISV多肽也可以是多特异性的。术语“多特异性”是指结合多个不同的靶分子(也称为抗原)。因此,多价ISV多肽可以是“双特异性”、“三特异性”、“四特异性”等,即,可以分别结合两个、三个、四个等不同的靶分子。
例如,多肽可以是双特异性三价的,例如包含三个ISV或由其组成的多肽,其中两个ISV结合第一靶标并且一个ISV结合不同于第一靶标的第二靶标。在另一个实例中,多肽可以是三特异性四价的,例如包含四个ISV或由其组成的多肽,其中一个ISV结合第一靶标,两个ISV结合不同于第一靶标的第二靶标,并且一个ISV结合不同于第一靶标和第二靶标的第三靶标。实例中,多肽可以是三特异性五价的,例如包含五个ISV或由其组成的多肽,其中两个ISV结合第一靶标,两个ISV结合不同于第一靶标的第二靶标,并且一个ISV结合不同于第一靶标和第二靶标的第三靶标。
在一个实施例中,多价ISV多肽还可以是多互补位的。术语“多互补位”是指与相同靶分子(也称为抗原)上的多个不同表位结合。因此,多价ISV多肽可以是“双互补位”、“三互补位”等,即,可以分别结合相同靶分子上的两个、三个等不同表位。
如本文所用,术语“接头”表示将两个或更多个(多)肽(例如ISV、本文定义的共同区域等)融合在一起形成单个分子的肽。使用接头来连接两个或更多个(多)肽是本领域众所周知的。其他示例性肽接头示于表A中。一类常用的肽接头被称为“Gly-Ser”或“GS”接头。这些是基本上由甘氨酸(G)和丝氨酸(S)残基组成的接头,并且通常包含肽基序的一个或多个重复,例如GGGGS(SEQ ID NO:2)基序(例如,具有式(Gly-Gly-Gly-Gly-Ser)n,其中n可以是1、2、3、4、5、6、7或更大)。此类GS接头的一些常用实例是9GS接头(GGGGSGGGS,SEQ ID NO:5)、15GS接头(n=3)和35GS接头(n=7)。例如,参考Chen等人,Adv.Drug Deliv.Rev.[高级药物递送综述]2013年10月15日;65(10):1357–1369;和Klein等人.,ProteinEng.Des.Sel.[蛋白工程化设计与筛选](2014)27(10):325-330。
表A:接头序列(“ID”是指如本文所用的SEQ ID NO)
如本文所用,术语“共同区域”表示可以存在于多个目标多价ISV中的每一个内的区域。共同区域可以包含VH、VL、细胞因子或其他蛋白质/肽,其可以附接至接头。共同区域可用于延长多价ISV的体内半衰期。
图2示出了用于获得多价ISV的序列信息的示例方法200的流程图。方法200产生目标多价ISV文库中的每个目标多价ISV的序列信息,其中目标多价ISV文库是从如先前所描述的多个组分ISV创建的。
在步骤2.1中,接收多个组分ISV中的每一个的序列信息。每个目标多价ISV包含多个组分ISV。每个组分ISV的序列信息可以是核酸序列,例如DNA序列或RNA序列,或者序列信息可以是氨基酸序列。序列信息可以以FASTA文件、原始数据文件(例如ABIF文件格式)或源自每个组分ISV的测序设备的数据流的形式提供。
还可以接收用于生成目标多价ISV文库的候选序列集合的进一步信息。例如,可以接收一个或多个接头中每一个的序列信息。可以接收一个或多个共同区域中的每一个的序列信息。序列信息可以是核酸序列,例如DNA序列或RNA序列,或者序列信息可以是氨基酸序列。对于每个接头,序列信息可以以FASTA文件的形式提供。还可以接收每个组分ISV的一个或多个侧翼引物的序列信息。还可以接收一个或多个恒定区的序列信息。还可以接收用于克隆的特定限制性酶识别位点的指示。
因此,可以接收反映用于使用克隆技术生成目标多价ISV文库的分子和化合物的信息。接收的信息用于在计算机中生成多价ISV的理论序列文库。
在步骤2.2中,基于接收的序列信息生成多价ISV的候选序列集合。候选序列集合是多价ISV的所有理论序列的集合(每个这样的理论序列也称为理论构建体),其可以使用组分ISV以及适当时的接头和共同区域来创建。在一些实例中,候选序列集合可以从固定的组分ISV集合(例如,多价ISV的每个位置仅一个ISV)但不同的接头来确定,以鉴定包含固定的组分ISV集合的多价ISV的最佳接头组合。候选序列集合以组合方式生成,确保每个可能的理论构建体都反映在候选序列集合中。该候选序列集合包含每个理论构建体的序列信息。序列信息可以是核酸序列,例如DNA序列或RNA序列,或者序列信息可以是氨基酸序列。每个理论构建体的序列信息可以被存储(例如以FASTA文件的形式)或以其他方式维持在存储器中。
在步骤2.3中,获得测序信息的多个读段组。每个读段组对应于特定的目标多价ISV。每个读段组包含特定目标多价ISV的一个或多个正向读段和/或特定目标多价ISV的一个或多个反向读段。读段组中的每个读段是使用不同引物从同一目标多价ISV的测序片段获得的。正向读段是使用正向引物获得的读段,反向读段是使用反向引物获得的读段。正向读段和/或反向读段的任何合适的组合可用于形成读段组。例如,读段组可以由两个或更多个正向读段组成,读段组可以由两个或更多个反向读段组成,读段组可以由一个或多个正向读段和一个或多个反向读段组成,等等。多个读段组中的每组可包含从正向引物和/或反向引物的相同组合获得的读段,例如,多个读段组中的每组可以包含相同数量的正向和/或反向读段。
读段是由测序机获得的多价ISV片段的测序信息。读段包括该读段的多个位置中的每个位置的字母代码。每个字母代码指定主要碱基的字母代码或歧义字母代码(例如IUPAC歧义字母代码)。因此,读段可能缺乏碱基识别,其中测序提供者估计歧义/低质量读段的主要碱基字母代码。每个读段还可以包括读段的每个位置的测序质量(或以其他方式与其关联)。测序质量衡量位置字母代码预测的置信度。
可以基于与读段相关联的元数据来确定读段属于对应于特定目标多价ISV的特定读段组。例如,元数据可以指示板标识符、样品标识符和/或孔标识符,这些标识符可以用于将对应于相同目标多价ISV的读段分组在一起。例如,可以使用与指示孔标识符和板标识符的读段相关联的元数据,将第一板中的孔C07的具有标识符的读段与第二板中的孔C07的读段分组在一起。
步骤2.4包括针对读段组中的每个读段执行的步骤2.4.1和2.4.2。此外,对每个读段组重复这些步骤。步骤2.4.1和2.4.2(以及后续步骤)可以并行执行,例如通过使用多核中央处理单元(CPU)。例如,可以按照下面描述的方法单独处理每个读段组,其中同一组中的读段的处理在同一CPU线程上执行。
在步骤2.4.1中,从候选序列集合中确定一个或多个命中候选序列。一个或多个命中候选序列中的每一个均包含与读段的对应部分的匹配部分。可以使用模式匹配过程来做出该确定,该模式匹配过程将读段(或其部分)与候选序列集合中的每个候选序列进行比较。可以使用任何合适的模式匹配过程,例如Rabin-Karp算法、Knuth-Morris-Pratt算法、Boyer-Moore算法等。
在执行模式匹配过程之前,可以首先对读段进行预处理。可以确定读段的起始位置,并且可以读取起始位置之前的读段的字母代码。起始位置可以是预先确定的并且是恒定的,例如,每个读段都可以使用相同的起始位置。修剪读段的开始部分可能有助于去除残基,并且这些残基与克隆过程相关并且可能不构成多价ISV的序列信息的一部分。可以确定读段的第一指定歧义字母代码(例如,IUPAC歧义字母代码)的位置,并且去除读段的具有从所确定的位置开始直到读段的结束位置的位置的字母代码。以这种方式去除字母代码可以从读段中去除歧义字母代码。可以接收截断参数,指示处理的读段的期望质量水平。对于每个读段,可以接收不同的截断参数值。可以修剪读段,包括去除读段中每个具有的测序质量低于由截断参数指定的值的一个或多个字母代码。
可以使用多次迭代来确定读段的命中候选序列。例如,在第一次迭代中,可以在(预处理的)读段和候选序列集合中的每个候选序列之间进行比较。执行模式匹配过程以确定读段是否包含在任何候选序列中。包含与读段匹配的部分的任何候选序列可以被添加到读段的命中候选序列中。命中候选序列的数量可以被限制为命中候选序列的最大数量。如果该读段不包含在任何候选序列中,则可以通过从该读段的末端去除一个或多个字母代码来修剪该读段,以产生用于后续迭代的缩短的读段。在一些实施例中,在每次迭代时,可以从读段的末端去除单个字母代码。在每次迭代中去除较少数量的字母代码可以导致所确定的目标多价ISV的序列信息的准确性更高。
可以例如通过执行模式匹配过程,在迭代的缩短读段和候选序列集合中的每个候选序列之间进行比较。如果迭代的缩短读段与特定候选序列匹配,则可以将特定候选序列添加到一个或多个命中候选序列。可以重复前面的步骤,直到满足一个或多个条件。例如,可以重复这些步骤直到命中候选序列的数量达到最大数量,和/或直到缩短的读段短于最小长度。
可以修剪组中读段的命中候选序列并且可以为整个读段组确定命中候选序列。例如,已经针对读段组中的每个读段确定的命中候选序列的相应集合可以相交。换句话说,命中候选序列中的每个候选序列包括与读段组中的每个读段对应的相应匹配部分。例如,如果特定候选序列包括针对组的正向读段的匹配部分,但不包含针对该组的相应反向读段的匹配部分,则可以从命中候选序列中去除该特定候选序列。
在步骤2.4.2中,使用命中候选序列、读段和一个或多个衍生自读段的序列,为每个命中候选序列产生共有矩阵(或任何其他合适的数据形式,例如一个或多个列表、字典等)。在步骤2.4.1中对读段进行预处理的情况下,此处的术语读段是指执行基于质量的修剪之前的读段(即未修剪的读段)。对于比对序列中的多个位置中的每个位置,共有矩阵指定命中候选序列、读段和一个或多个衍生自读段的序列之间的共有序列。该一个或多个衍生自该读段的序列包含以下至少之一:经修剪的读段,其中去除该读段中每个具有的测序质量低于由接收的截断参数指定的值的一个或多个字母代码;和经碱基识别的序列,其中读段中具有歧义字母代码的位置被主要碱基的字母代码替换。经碱基识别的序列可以以任何适当的方式确定。
比对序列可以通过在命中候选序列、读段和源自读段的一个或多个序列之间进行多序列比对(MSA)来确定。比对序列是使每个序列彼此最佳或充分比对的序列。在一些情况下,多序列比对可被配置为比对命中候选序列、读段和一个或多个衍生自读段的序列中的每一个,而不在比对序列中引入任何空位。在这些情况下,比对序列可以与命中候选序列相同。可以使用任何合适的MSA技术,例如涉及动态编程方法、迭代方法、隐马尔可夫模型(hidden Markov model)、通过对数期望的多序列比较等的技术。
共有矩阵可以包括在比对序列中的多个位置中的每个位置处针对主要碱基字母代码集合中的每个主要碱基字母代码的得分。得分表示有多少序列(即用于形成共有矩阵的序列)在特定位置的特定碱基字母代码上达成一致。
简要地转向图3,图3示出了目标多价ISV的比对序列的共有矩阵的示例部分。图3中显示的示例共有矩阵显示了针对正向读段的共有矩阵确定。此外,图3-6示出了本文描述的方法和系统的实例,其中使用微孔板对目标多价ISV进行测序。例如,这些图中的每一个都显示与孔A01的序列(对应于特定的目标多价ISV)相关的方面。
共有矩阵的列由对应于比对序列中的位置的索引来索引,并且行由主要碱基的字母代码来索引。图3的示例共有矩阵是使用总共四个序列作为比对序列生成的:命中候选序列、未修剪的正向读段以及衍生自正向读段的两个序列:经修剪的正向读段和经碱基识别的正向读段。因此,特定位置的字母代码可以获得的最大得分是4。从图3中可以看出,比对序列中直到位置801的位置都达到了最大得分。因此,对于这些位置,与正向读段相关的每个序列都与主要碱基的特定字母代码一致,表明比对的高置信度。
相反,比对序列的位置1726、1727、1728对于这些位置的最高得分字母代码仅具有1的得分。这表明比对序列中仅存在命中候选序列,并且与正向读段相关的序列不能用于验证这些位置处的候选序列。
当特定位置的最高得分字母代码大于1但小于最大得分(例如位置823、824)时,这表明比对置信度较低。在这些情况下,在生成组装矩阵时可以使用最高得分的字母代码和相应的得分。
返回图2,在步骤2.5中,对于每个读段组,基于读段组中每个读段的共有矩阵,为每个命中候选序列生成组装矩阵(或任何其他合适的数据形式,例如一个或多个列表、字典等)。共有矩阵的结果被合并以形成组装矩阵。
对于读段组中的每个读段,以及对于比对序列中的每个位置,组装矩阵可以包含主要碱基的字母代码,或者表示对于该读段的位置不能确定主要碱基的字母代码的空符号。
简要地转向图4,图4示出了目标多价ISV的比对序列的组装矩阵的示例部分。
组装矩阵的列由对应于比对序列中的位置的索引来索引,并且行由读段组的读段来索引。图4中所示的示例性组装矩阵对于对应于孔A01的目标多价ISV将每个正向读段(由“正向_组装”表示)和两个反向读段(由“alb_反向_组装”和“反向_组装”表示)确定的共有矩阵的结果合并在一起。应当理解,读段组可以包括另外的读段(例如,另外的正向和/或反向读段),和/或可以省略正向/反向读段之一。
组装矩阵的每个条目都是使用与该条目相关联的读段的相应共有矩阵来确定的。例如,位置1的“正向_组装(for_assembly)”条目是使用正向读段的共有矩阵来确定的,该共有矩阵如图3所示。该共有矩阵(在本实例中对于正向读段)的第一位置的最高得分字母代码是字母代码“G”,并且该最高得分达到最大得分(在本实例中为4)。结果,字母代码“G”被插入到“正向_组装”的第一个位置的条目中。组装矩阵的其他条目以类似的方式确定,其中每个读段的共有矩阵的每个位置处的最高得分字母代码通常被输入到组装矩阵的相应条目中。当共有矩阵的特定位置(例如图3中的位置1726)的最高得分等于1时,插入空符号(图4中显示为破折号),表明对于该读段的位置不能确定主要碱基的字母代码(例如如图4中位置1726的“正向_组装”条目所示)。
如图4的实例所示,比对序列的位置517到525被正向读段和与“alb_反向_组装”对应的反向读段确认,表明对应于组装矩阵的命中候选序列在这些位置很可能是正确的。位置762和764由所有读段确认,指示命中候选序列在这些位置处正确的可能性较高。
返回图2,在步骤2.6中,基于为与目标多价ISV对应的读段组确定的一个或多个组装矩阵,确定每个目标多价ISV的序列信息。序列信息可以是核酸序列,例如DNA序列或RNA序列,或者序列信息可以是氨基酸序列。序列信息可以以FASTA文件的形式存储。
对于每个命中候选序列,基于与命中候选序列对应的组装矩阵确定组装的序列。对于比对序列的多个位置中的每个位置,组装的序列包含指定主要碱基的字母代码或歧义字母代码(例如IUPAC歧义字母代码)的字母代码。例如,如果对于组装矩阵的特定位置,该位置的每个读段的条目指定空符号,则可以为组装的序列中的位置确定N。根据IUPAC歧义字母代码,这指定任何主要碱基在比对序列的该位置处都是可能的。
如果对于组装矩阵的特定位置,每个读段的条目指定特定主要碱基的相同字母代码,则针对组装的序列中的位置确定特定主要碱基的字母代码。例如,对于图4中的位置762,组装矩阵的所有条目都显示“T”。结果,组装的序列的第762位置被确定为“T”。
对于组装矩阵的位置,可以指定主要碱基的多字母代码。在这种情况下,可以获得多字母代码中的每一个的得分,并且可以为组装的序列中的位置确定最高得分的字母代码。例如,考虑组装矩阵的位置,该位置对于正向读段指定“T”,对于反向读段指定“A”,并且对于进一步反向读段指定“T”。正向读段的“T”的得分可以根据该位置的字母代码“T”的得分来确定,如正向读段的共有矩阵中指定的。类似地,可以确定反向读段的“A”的得分和进一步反向读段的“T”的得分。从共有矩阵获得的得分可用于确定组装矩阵的字母代码的得分,例如正向读段的“T”得分可以加至进一步反向读段的“T”得分。
如果字母代码的相应得分相等,则基于主要碱基的多字母代码确定组装的序列中的位置的歧义字母代码。在该实例中,可以针对组装的序列中的位置确定IUPAC歧义代码“W”(指定“A”或“T”)。测序结果的质量数据(例如每个碱基质量值(PCON)和/或PHRED得分)也可用于确定组装矩阵中位置的字母代码。例如,如果特定读段的质量数据指示特定字母代码的高测序质量,则该字母代码可以被确定为组装矩阵的位置的字母代码。
然而,如果特定读段的共有矩阵之一指定了该位置处的特定字母代码的最大得分(例如,在图3所描述的实例中为4),则确定了组装的序列中该位置的特定主要碱基的字母代码。
在只有一个命中候选序列的情况下,对应于命中候选序列的组装序列用于提供目标多价ISV的测序信息。例如,测序信息可以是组装的序列。另外或可替代地,测序信息可以衍生自组装的序列,例如以从组装的序列确定(即翻译)的氨基酸序列的形式。
在命中候选序列的数量大于一的情况下,可以将每个组装的序列与其对应的命中候选序列进行比较。首先,可以执行模式匹配过程以确定组装的序列是否与其对应的命中候选序列相同。如果特定的组装的序列与其命中候选序列完全匹配,则选择该特定的组装的序列来提供目标多价ISV的测序信息。例如,测序信息可以是组装的序列。另外或可替代地,测序信息可以衍生自组装的序列,例如以从组装的序列确定的氨基酸序列的形式。
如果没有一个组装的序列与其对应的命中候选序列相匹配,则选择与其命中候选序列最接近匹配的组装的序列来提供目标多价ISV的测序信息。例如,序列比对技术可用于将每个组装的序列与其对应的命中候选序列进行比较。具体地,可以进行全局成对比对,例如通过使用点阵方法、动态编程和/或字方法。可以确定组装的序列与其对应的命中候选序列的比对程度的得分。序列比对可以被配置为进行比对而不在比对中引入任何空位。可选择具有最高得分的组装的序列来提供目标多价ISV的测序信息。
图5示出了为两个多价ISV中的每一个确定的示例DNA序列。如图5所示,确定与A01孔对应的目标多价ISV的DNA序列与其对应的命中候选序列(来自候选序列集合的seq_95)100%匹配。对于对应于孔A02的目标多价ISV,确定的DNA序列与候选序列集合中最匹配的命中候选序列(seq_81)显示出87.7%的同一性。DNA序列可以以任何适当的形式存储,例如在FASTA文件中。
图6示出了为两个多价ISV(对应于图5中示出的DNA序列)中的每一个确定的示例氨基酸序列。氨基酸序列可以以任何适当的形式存储,例如在FASTA文件中。
图7是用于执行本文描述的方法的系统/装置的示意图。所示的系统/装置是计算设备的实例。本领域技术人员将理解,其他类型的计算设备/系统可以替代地用于实现本文描述的方法,例如分布式计算系统。
装置(或系统)700包括一个或多个处理器702。一个或多个处理器控制系统/装置700的其他组件的操作。例如,一个或多个处理器702可以包括通用处理器。一个或多个处理器702可以是单核设备或多核设备。一个或多个处理器702可包括中央处理单元(CPU)或图形处理单元(GPU)。可替代地,一个或多个处理器702可包括专用处理硬件,例如RISC处理器或具有嵌入式固件的可编程硬件。可以包括多个处理器。
该系统/装置包括工作或易失性存储器704。一个或多个处理器可以访问易失性存储器704以便处理数据并且可以控制存储器中数据的存储。易失性存储器704可以包括任何类型的RAM,例如静态RAM(SRAM)、动态RAM(DRAM),或者其可以包括闪存,例如SD卡。
该系统/装置包括非易失性存储器706。非易失性存储器706以计算机可读指令的形式存储用于控制处理器702的操作的一组操作指令708。非易失性存储器706可以是任何类型的存储器,例如只读存储器(ROM)、闪存或磁驱动存储器。
一个或多个处理器702被配置为执行操作指令708以使系统/装置执行本文描述的方法中的任一种。操作指令708可以包括与系统/装置700的硬件组件相关的代码(即,驱动程序),以及与系统/装置700的基本操作相关的代码。一般来说,一个或多个处理器702执行永久或半永久存储在非易失性存储器706中的操作指令708中的一个或多个指令,使用易失性存储器704临时存储在所述操作指令708的执行过程中生成的数据。
本文描述的方法的实施方式可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些可以包括计算机程序产品(例如存储在例如磁盘、光盘、存储器、可编程逻辑器件上的软件),其包括计算机可读指令,当由计算机执行这些可读指令时,例如关于图7所描述的,使得计算机来执行本文描述的一种或多种方法。
本文描述的任何系统特征也可以被提供作为方法特征,反之亦然。如本文所用,手段加功能特征可以替代地以其相应的结构来表达。具体地,方法方面可以应用于系统方面,反之亦然。
此外,一个方面中的任何、一些和/或所有特征可以以任何适当的组合应用于任何其他方面中的任何、一些和/或所有特征。还应当理解,在本发明的任何方面中描述和定义的各种特征的特定组合可以独立地实现和/或提供和/或使用。
尽管已经示出和描述了若干实施例,但是本领域技术人员应当理解,可以在这些实施例中进行改变而不背离本披露的原理,本披露的范围在权利要求中限定。
Claims (16)
1.一种用于获得多个目标多价免疫球蛋白单可变结构域(ISV)中每一个的序列信息的计算机实现的方法,该方法包括:
接收多个组分ISV中的每一个的序列信息,其中每个目标多价免疫球蛋白单可变结构域(ISV)包含多个这些组分ISV;
基于接收的序列信息生成多价ISV的候选序列集合;
获得测序信息的多个读段组,其中每个读段组对应于该多个目标多价ISV中的特定目标多价ISV;
对于读段组中的每个读段:
从该候选序列集合中确定一个或多个命中候选序列,其中该一个或多个命中候选序列中的每一个均包含与该读段的对应部分的匹配部分,并且
使用该命中候选序列、该读段和一个或多个衍生自该读段的序列为每个命中候选序列生成共有矩阵,其中对于比对序列中的多个位置中的每个位置,该共有矩阵指定该命中候选序列、该读段和该一个或多个衍生自该读段的序列之间的共有序列,
对于每个读段组基于该读段组中每个读段的共有矩阵生成每个命中候选序列的组装矩阵;并且
基于为与该目标多价ISV对应的读段组确定的一个或多个组装矩阵,确定每个目标多价ISV的序列信息。
2.如权利要求1所述的方法,其中读段包括该读段的多个位置中的每个位置的字母代码,每个字母代码指定主要碱基的字母代码或歧义字母代码,并且其中对于读段从该候选序列集合确定一个或多个命中候选序列包括:
从该读段的末端去除一个或多个字母代码以针对多次迭代中的每次迭代产生缩短的读段;
在迭代的该缩短的读段和每个候选序列之间执行模式匹配过程;以及
当迭代的缩短的读段与特定候选序列匹配时,将该特定候选序列添加到该一个或多个命中候选序列。
3.如任一项前述权利要求所述的方法,其中读段包括该读段的多个位置中的每个位置的字母代码,每个字母代码指定主要碱基的字母代码或歧义字母代码,其中该读段指定每个位置的测序质量,并且其中对于读段从该候选序列集合中确定一个或多个命中候选序列包括:
接收截断参数;
确定经修剪的读段,包括去除该读段中每个具有的测序质量低于由该截断参数指定的值的一个或多个字母代码;
确定该读段的起始位置,并去除该起始位置之前的读段的字母代码;
确定该读段中第一指定歧义字母代码的位置;以及
去除该读段的具有从所确定的位置开始直到该读段的结束位置的位置的字母代码。
4.如任一项前述权利要求所述的方法,其中这些命中候选序列中的每个候选序列包括与该读段组中的每个读段对应的相应匹配部分。
5.如任一项前述权利要求所述的方法,其中通过在该命中候选序列、该读段和一个或多个衍生自该读段的序列之间进行多序列比对MSA来确定该比对序列。
6.如权利要求5所述的方法,其中该多序列比对被配置为比对该命中候选序列、该读段和该一个或多个衍生自该读段的序列中的每一个,而不在该比对序列中引入任何空位。
7.如任一项前述权利要求所述的方法,其中该一个或多个衍生自该读段的序列包含以下至少之一:
经修剪的读段,其中去除该读段中每个具有的测序质量低于由接收的截断参数指定的值的一个或多个字母代码;以及
经碱基识别的序列,其中该读段中具有歧义字母代码的位置被主要碱基的字母代码替换。
8.如任一项前述权利要求所述的方法,其中该多个读段组中的每一组包含该组的相应目标多价ISV的一个或多个正向读段以及该相应目标多价ISV的一个或多个反向读段。
9.如任一项前述权利要求所述的方法,其中基于接收的序列信息生成多价ISV的候选序列集合包括:
接收一个或多个接头中每一个的序列信息;
接收特定限制性酶识别位点的指示;以及
使用该一个或多个接头的测序信息和该特定限制性酶识别位点的指示来生成该多价ISV的候选序列集合。
10.如任一项前述权利要求所述的方法,其中该共有矩阵包括在该比对序列中的多个位置中的每个位置处针对主要碱基字母代码集合中的每个主要碱基字母代码的得分。
11.如权利要求10所述的方法,其中对于该读段组中的每个读段,以及对于该比对序列中的每个位置,该组装矩阵包括主要碱基的字母代码,或者表示对于该读段的位置不能确定主要碱基的字母代码的空符号。
12.如任一项前述权利要求所述的方法,其中每个组分ISV选自VL、VH、VHH、人源化VHH和骆驼化VH,并且任选地,其中这些组分ISV中的每一个是单价ISV。
13.如任一项前述权利要求所述的方法,其中每个目标多价ISV的序列信息包含核酸序列,和/或每个组分ISV的序列信息包含核酸序列,并且任选地,其中该核酸序列是DNA序列。
14.一种装置,其包括被配置为执行如前述权利要求中任一项所述的方法的一个或多个处理器。
15.一种包括指令的计算机可读存储介质,这些指令由一个或多个处理器执行时使得该一个或多个处理器执行如权利要求1至13中任一项所述的方法。
16.一种计算机装置,其用于获得多个目标多价免疫球蛋白单可变结构域(ISV)中每一个的序列信息,该装置被配置为执行:
接收多个组分ISV中的每一个的序列信息,其中每个目标多价免疫球蛋白单可变结构域(ISV)包含多个这些组分ISV;
基于接收的序列信息生成多价ISV的候选序列集合;
获得测序信息的多个读段组,其中每个读段组对应于该多个目标多价ISV中的特定目标多价ISV;
对于读段组中的每个读段:
从该候选序列集合中确定一个或多个命中候选序列,其中该一个或多个命中候选序列中的每一个均包含与该读段的对应部分的匹配部分,以及
使用该命中候选序列、该读段和一个或多个衍生自该读段的序列为每个命中候选序列生成共有矩阵,其中对于比对序列中的多个位置中的每个位置,该共有矩阵指定该命中候选序列、该读段和该一个或多个衍生自该读段的序列之间的共有序列,
对于每个读段组基于该读段组中每个读段的共有矩阵生成每个命中候选序列的组装矩阵;以及
基于为与该目标多价ISV对应的读段组确定的一个或多个组装矩阵,确定每个目标多价ISV的序列信息。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP21209696.0 | 2021-11-22 | ||
| EP21209696 | 2021-11-22 | ||
| PCT/EP2022/082767 WO2023089191A1 (en) | 2021-11-22 | 2022-11-22 | Obtaining sequence information for target multivalent immunoglobulin single variable domains |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118302818A true CN118302818A (zh) | 2024-07-05 |
Family
ID=78725384
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202280077652.8A Pending CN118302818A (zh) | 2021-11-22 | 2022-11-22 | 获得目标多价免疫球蛋白单可变结构域的序列信息 |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP4437547A1 (zh) |
| JP (1) | JP2024543109A (zh) |
| CN (1) | CN118302818A (zh) |
| WO (1) | WO2023089191A1 (zh) |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69330523D1 (de) | 1992-08-21 | 2001-09-06 | Vrije Universiteit Brussel Bru | Immunoglobuline ohne leichte ketten |
| EP0739981A1 (en) | 1995-04-25 | 1996-10-30 | Vrije Universiteit Brussel | Variable fragments of immunoglobulins - use for therapeutic or veterinary purposes |
| BR9813276A (pt) | 1997-10-27 | 2000-08-22 | Unilever Nv | Proteìna multivalente de ligação de antìgeno, sequências de nucleotìdeos, vetor de expressão, célula hospedeira, processo para preparação de proteìna multivalente de ligação de antìgeno, e, uso da mesma |
| AU2007285695B2 (en) | 2006-08-18 | 2012-05-24 | Ablynx N.V. | Amino acid sequences directed against IL-6R and polypeptides comprising the same for the treatment of diseases and disorders associated with IL-6-mediated signalling |
-
2022
- 2022-11-22 JP JP2024529915A patent/JP2024543109A/ja active Pending
- 2022-11-22 EP EP22821455.7A patent/EP4437547A1/en active Pending
- 2022-11-22 CN CN202280077652.8A patent/CN118302818A/zh active Pending
- 2022-11-22 WO PCT/EP2022/082767 patent/WO2023089191A1/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| EP4437547A1 (en) | 2024-10-02 |
| WO2023089191A1 (en) | 2023-05-25 |
| JP2024543109A (ja) | 2024-11-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Klarenbeek et al. | Camelid Ig V genes reveal significant human homology not seen in therapeutic target genes, providing for a powerful therapeutic antibody platform | |
| JP6250284B2 (ja) | ヒト化抗体 | |
| Finlay et al. | Natural and man-made V-gene repertoires for antibody discovery | |
| CN110799532B (zh) | 犬抗体文库 | |
| US20190391159A1 (en) | Compositions and methods for rapid production of versatile nanobody repertoires | |
| CN102449149A (zh) | 集合及其使用方法 | |
| JP7332691B2 (ja) | 抗体の開発可能性が最大化された抗体ライブラリー | |
| US12258679B2 (en) | Polyclonal mixtures of antibodies, and methods of making and using them | |
| Liu et al. | Research progress on unique paratope structure, antigen binding modes, and systematic mutagenesis strategies of single-domain antibodies | |
| Mitchell et al. | High-volume hybridoma sequencing on the NeuroMabSeq platform enables efficient generation of recombinant monoclonal antibodies and scFvs for neuroscience research | |
| AU2022287551A1 (en) | Mixed binding domains | |
| Fridy et al. | A new generation of nanobody research tools using improved mass spectrometry-based discovery methods | |
| CN118302818A (zh) | 获得目标多价免疫球蛋白单可变结构域的序列信息 | |
| WO2016019888A1 (zh) | 筛选纳米抗体的方法及系统 | |
| EP3072976B1 (en) | Method for determining and system for determining polypeptide bonding to target molecule | |
| Liu et al. | High-throughput reformatting of phage-displayed antibody fragments to IgGs by one-step emulsion PCR | |
| Guilbaud et al. | Construction of synthetic VHH libraries in ribosome display format | |
| US20140206579A1 (en) | Dna libraries encoding frameworks with synthetic cdr regions | |
| US11365238B2 (en) | Sequencing chicken antibody repertoires following hyperimmunization and the identification of antigen-specific monoclonal antibodies | |
| WO2025140603A1 (en) | Antibodies capable of selectively binding to his tagged recombinant proteins and use thereof | |
| Mitchell et al. | NeuroMabSeq: high volume acquisition, processing, and curation of hybridoma sequences and their use in generating recombinant monoclonal antibodies and scFvs for neuroscience research | |
| Madsen | Engineering Strategies for Design and Production of Bispecific Antibodies | |
| WO2007137616A1 (en) | Highly diversified antibody libraries | |
| Trimmer | Keith G. Mitchell, Belvin Gong, Samuel S. Hunter 2, Diana Burkart‑Waco 3, Clara E. Gavira‑O’Neill, Kayla M. Templeton, Madeline E. Goethel, Malgorzata Bzymek, Leah M. MacNiven, Karl D. Murray, Matthew L. Settles 2, Lutz Froenicke 3 & | |
| WO2024106394A1 (ja) | 抗体及び抗体を生産する方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |