WO2010066115A1

WO2010066115A1 - 一种降低短序列组装过程的时间复杂度的方法及系统

Info

Publication number: WO2010066115A1
Application number: PCT/CN2009/001427
Authority: WO
Inventors: 李瑞强; 朱红梅; 李松岗; 王俊; 杨焕明; 汪建
Original assignee: SHENZHEN HUADA GENE INSTITUTE
Current assignee: SHENZHEN HUADA GENE INSTITUTE
Priority date: 2008-12-12
Filing date: 2009-12-11
Publication date: 2010-06-17
Anticipated expiration: 2011-06-12
Also published as: CN101430742A; CN101430742B

Description

一种降低短序列组装过程的时间复杂度的方法及系统技术领域

本发明属于基因工程技术领域，尤其涉及一种降低短序列组装过程时间复杂度的方法及系统。背景技术

新测序技术产生的短序列有两个特点：

1.序列长度短；

2.数据量大。

在长序列组装过程中，常用的 phrap等软件均是基于序列间的交叠（overlap )来进行拼接，如果应用在短序列上，则运算量太大，没有实际应用价值。而新兴的短序列组装软件中成功处理短序列的，例如基于 de Bruijn图的 velvet等。但是，由于受内存、时间等的限制 , 现有的这些短序列组装软件只能组装较小的原核生物基因组，对于大基因组，例如真核生物基因组，特别是哺乳动物基因组数据，由于数据处理时时间复杂度较高、内存占用较大，现有的短序列组装软件均难以实现短序列的组装。发明内容

本发明实施例的目的在于提供一种降低短序列组装过程的时间复杂度的方法，旨在解决现有短序列组装软件不能组装大基因组的问题。

本发明实施例是这样实现的，一种降低短序列组装过程的时间复杂度的方法，所述方法包括下述步骤：

接收测序序列；分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到所述短串的左、右连接关系，所述左、右连接关系包括短串序列值、存在左连接的各碱基的连接数量和存在右连接的各½的连接数量；

将得到的各所述短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并釆用哈希表存储所述 de Bruijn 图的各节点，其中哈希键为所述序列值，哈希值为所述节点。

本发明实施例的另一目的在于提供一种降低短序列组装过程的时间复杂度的系统，所述系统包括：

接收单元，用于接收测序序列；

序列切割单元，用于分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到所述短串的左、右连接关系，所述左、右连接关系包括短串序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量；以及

构图单元，用于将得到的各所述短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并采用哈希表存储所述 de Bruijn图的各节点，其中哈希键为所述序列值，哈希值为所述节点。

在本发明实施例中，通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到短串的左、右连接关系，将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并使用哈希表进行存储。由于使用哈希表存储使得更新节点连接关系等同于节点查找和更新查找到的节点的左、右相连碱基的连接数量，因此在 O ( l )的时间内就可以完成节点的查找、插入和节点连接关系的更新，从而实现在短序列组装过程降低时间复杂度，进而实现对大基因组的短序列组装。附图说明

图 1是本发明实施例提供的降低短序列组装过程的时间复杂度的方法的实现流程图；

图 2是本发明实施例提供的节点存储内容的示意图；

图 3本发明实施例提供的降低短序列组装过程的时间复杂度的系统的结构图。具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到短串的左、右连接关系，将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并采用哈希表存储 de Bruijn图的各节点，其中哈希键为序列值，哈希值为节点。

图 1示出了本发明实施例提供的降低短序列组装过程的时间复杂度的方法的实现流程，详述如下：

在步驟 S101中，接收测序序列；

在步骤 S102中，分别将接收到的测序序列逐个碱基滑动切割得到固定长度的短串（kmer ) ，并得到短串的左、右连接关系，所述左、右连接关系包括短串序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量；

在步骤 S103中，将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并采用哈希表存储 de Briiijn图的各节点，其中哈希键为序列值，哈希值为节点。

在本发明实施例中，测序序列的碱基长度为 25 - 75，切割成固定长度为 21 - 31的短串。当然，切割得到的短串的长度小于测序序列的长度，其长度可以根据测序序列的长度和实际情况设定。 de Bruijn图中每个节点使用相应位存储其序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。这里，用 16字节存储 de B ijn图上的各节点，其存储格式如下：

[ seq: 64， left links: 24, right— links: 24, …】；

其中， seq存储短串的序列值，序列值的计算方法是使用 2位存储一个核苷序列， A用 00表示， C用 01表示， T用 10表示， G用 11表示，顺序编码下去生成一个占 64位的整数值，并且，考虑到对于偶数长度的短串，其互补短串可能为它自己，例如短串 GATC 的互补短串为 GATC自己。为了防止这种混淆，短串的长度均为奇数，由于本发明实施例中数据结构的限制，短串的长度不大于 31; leftjinks用 24位存储其左连接关系及数量，将 24位分割成 4个 6 位，即 A: 6, T: 6, G: 6, C: 6, 分别用 6位存储与该短串存在左连接的碱基 A、 T、 G或 C的连接数量，每种连接数量的取值范围为 [0， 63]； right— links用 24位存储其右连接关系及数量，将 24 位分割成 4个 6位，即 A: 6, T: 6, G: 6， C: 6, 分别用 6位存储与该短串存在右连接的 A、 T、 G或 C的连接数量，每种连接数量的取值范围为 [0, 63]；其后面的 8位可以用于存储其他值，例如，可以存储删除标记 closed, 以标识该短串是否被删除；也可以存储使用标记 in一 use, 以标识该短串是否被使用过，还可以存储其他标识。这样，根据节点中存储的短串序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量即可构建 de Bmijii图中各节点的连接关系。例如，短串甲为 AAAAAAAA存在右连接的 T的连接数量为 19, 与其右连接碱基 T的短串乙为 AAAAAAAT, 等于短串曱左移一个碱基并加上与其连接的碱基 T，并且与短串甲连接的短串乙有 19个，节点中存储右连接 Τ的连接数量的存储内容如图 2 所示。

上述步骤 S103具体为：

步骤 1.根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点；

步骤 2.如果没有查询到相应节点，则添加节点；

步骤 3.如果查询到相应节点，则更新该相应节点的连接关系。在本发明实施例中，使用哈希表存储 de Bruijn图的各节点，哈希键为序列值，哈希值为节点。例如取一短串为 AAAAAAAA, 其序列值为 0x0000 ，将其序列值 0x0000作为键在哈希表中查询是否已存有相应节点，如果没有查询到相应节点，则添加节点存储到哈希表中，其值中的 seq为该短串的序列值 0x0000，并根据该短串相邻的短串将该节点中相应左、右相连碱基的连接数量置为 1; 如果查询到已存有相应节点，则更新相应节点的连接关系，即根据与该短串相邻的短串更新该节点中相应左、右相连碱基的连接数量，将与该短串有连接的碱基的相应连接数量加 1。完成后，执行步骤 1，查找下一个短串，直至完成全部短串的查找。

在本发明实施例中，使用哈希表可以在 O ( 1 )的时间内完成查找节点、插入节点（即存储节点）和更新节点连接关系。更新节点连接关系等同于查找节点，并更新查找到的节点的左、右相连碱基的连接数量，所以时间复杂度依然为 O ( l )。本发明实施例将原来需要多个逻辑处理的步骤转化为一个步骤，使得计算机在识别节点存储内容这个步骤的运算中，完成了查找、插入和更新联结关系的三个步骤，而时间复杂度仍然为 O ( l )，因此节约了计算机进行逻辑判断的时间，改善了短序列组装过程中计算机的内部性能，从而为大基因组的短序列组装的实现提供了。

为了降低存储 de Bruijn图中节点所需的内存空间，作为本发明的一个优选实施例，还可以只用 de Bruijn图中的一个节点存储互补的两短串，节点的序列值取互补的两短串中较小的序列值。如果一个的短串的序列值小于其互补短串的序列值，则 de Bruijn图中的节点存储该短串的序列值， seq存储该短串的序列值，与其左连接碱基的相应连接数量更新到 left— links, 与其右连接碱基的相应连接数量更新到 right— links; 如果一个的短串的序列值大于其互补短串的序列值，则 de Bruijn图中的节点存储其互补短串的序列值， seq存储其互补短串的序列值，与其右连接碱基的相应连接数量更新到 leftjinks, 与其左连接碱基的相应连接数量更新到 ri_gM—links。操作图时，可以在程序中使用一个附加的变量来标记我们使用的是互补的两短串的哪一个。并且，在沿图遍历时，只需要程序维持一个这样的变量，就可以正确地得到路径中所有节点的正方向。

为了加快构建图的速度，作为本发明的另一个优选实施例，使用多个哈希表唯一存储 de Bruijn图中的不同节点，并采用不同线程访问不同的哈希表。

在本发明实施例中，建立 8个哈希表，读入一定数目的原始序列，采用 8个线程对读入的原始测序列进行多线程切割、短串求互补，在数据收集完毕后，采用 8个线程进行插入更新节点，其中每个线程只处理固定前缀的序列值。每个哈希表存储指定前缀的序列值，并且一个哈希表只有一个线程访问，以保证节点存储的唯一性。

采用上述本发明实施例提供的压缩的数据结构，可以将节点信息（即序列值）和节点的连接信息（即边）组合在一起，从一个节点的值可以得到该节点上的短串、与该短串相邻的短串的序列值及其数量。

当然，也可以用其他结构来存储 de Bruijn图的各节点，例如可以用树结构来存储，使用哈希表存储各节点在内存和使用上与用树状结构存储近似，但是使用哈希表存储各节点在访问和修改速度上都明显优于树的存储结构。

选取非洲人基因组重测序数据，经纠错处理后，序列数据量 254G碱基，切割成 25碱基长度的定长短串后，短串的总数目（包括正反向序列）为 7G 条，采用本发明实施例提供的方法构建 de Bruijn图，内存最大使用值为 110G，共消耗 23 CPU小时，其中， CPU 的参数为 Quad-Core AMD Opteron(tm) Processor 8356 2.2GHZ。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步驟是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，如 ROM/RAM、磁盘、光盘等，该程序用来执行如下步骤：

1.接收测序序列；

2. 分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到短串的左、右连接关系，所述左、右连接关系包括短串序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量；

3. 将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并采用哈希表存储 de Bruijn图的各节点，其中哈希键为序列值，哈希值为节点。

图 3示出了本发明实施例提供的降低短序列组装过程的时间复杂度的系统的结构，为了便于说明仅示出了与本发明实施例相关的部分。

该系统可以用于短序列组装中，其中：

接收单元 301，接收测序序列。

序列切割单元 302，分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到短串的左、右连接关系，其实现方式如上所述，不再赘述。

构图单元 303，将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn图的一个节点，并采用哈希表存储 de Bruijn图的各节点，其中哈希键为序列值，哈希值为节点。在本发明实施例中，构图单元 303在 de Bruijn图的节点中使用相应位存储其序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。

其中，构图单元 303包括：

查询模块 3031，根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点。

节点添加模块 3032, 在查询模块 3031没有查询到相应节点时，添加节点，其实现方式如上所述，不再赘述。

连接更新模块 3033, 在查询模块 3031查询到相应节点时，更新该相应节点的连接关系，其实现方式如上所述，不再赘述。

为了降低存储 de Bruijn图中节点所需空间，作为本发明的一个优选实施例，构图单元 303使用 de Bruijn图中的一个节点存储互补的两短串，节点的序列值取互补的两短串中较小的序列值，其实现方式如上所述，不再赘述。

为了加快构建图的速度，作为本发明的另一个优选实施例，构图单元 303采用多个哈希表唯一存储 de Bruijn图中的不同节点，并采用不同线程访问不同的哈希表。在本发明实施例中，通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到短串的左、右连接关系，将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijii图的一个节点，并使用哈希表进行存储。由于釆用本发明实施例的构图方式并使用哈希表进行存储，使得更新节点连接关系等同于节点查找和更新查找到的节点的左、右相连碱基的连接数量，因此在 O ( l )的时间内就可以完成节点的查找、插入和节点连接关系的更新，从而实现在短序列组装过程降低时间复杂度，进而实现对大基因组的短序列组装。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1. 一种降低短序列组装过程的时间复杂度的方法，其特征在于，所述方法包括下述步骤：

接收测序序列；

分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串，并得到所述短串的左、右连接关系，所述左、右连接关系包括短串序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量；

将得到的各所述短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn 图的一个节点，并采用哈希表存储所述 de Bruijn图的各节点，其中哈希键为所述序列值，哈希值为所述节点。

2. 如权利要求 1所述的方法，其特征在于，所述 de Bruijn图的节点使用相应位存储所述短串的序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。

3. 如权利要求 1所述的方法，其特征在于，所述将得到的各短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn 图的一个节点的步骤具体为：

根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点；

如果没有查询到相应节点，则添加节点；

如果查询到相应节点，则更新所述相应节点的连接关系。

4. 如权利要求 1所述的方法，其特征在于，所述 de Bruijn图的一个节点中存储互补的两短串。

5. 如权利要求 1所述的方法，其特征在于，采用多个哈希表唯一存储所述 de Bruijn 图的不同节点，并釆用不同线程访问不同的哈希表。

6. 一种降低短序列组装过程的时间复杂度的系统，其特征在于，所述系统包括：

接收单元，用于接收测序序列；

构图单元，用于将得到的各所述短串的序列值，左、右连接关系及其连接数量存储为 de Bruijn 图的一个节点，并采用哈希表存储所述 de Bruijn 图中的不同节点，其中哈希键为所述序列值，哈希值为所述节点。

7. 如权利要求 6所述的系统，其特征在于，所述构图单元在 de Bruijn图的节点中使用相应位存储所述短串的序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。

8. 如权利要求 7所述的系统，其特征在于，所述构图单元包括：

查询模块，用于根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点；

节点添加模块，用于在所述查询模块没有查询到相应节点时，添加节点；

连接更新模块，用于在所述查询模块查询到相应节点时，更新所述相应节点的连接关系。