CN111326216B

CN111326216B - 一种针对大数据基因测序文件的快速划分方法

Info

Publication number: CN111326216B
Application number: CN202010122470.0A
Authority: CN
Inventors: 张中海; 谭光明; 张春明; 姚二林
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-07-21
Anticipated expiration: 2040-02-27
Also published as: CN111326216A

Abstract

本发明涉及高性能计算领域，特别涉及一种大数据基因测序文件的快速切分方法，使得在多节点基因分析过程中，无须对测序文件进行实际的切分，不产生子文件，根据后续分析程序提供灵活的划分方案，从而使得各个节点负载更均衡，减少了硬盘读写，提高了划分效率。

Description

一种针对大数据基因测序文件的快速划分方法

技术领域

本发明涉及高性能计算领域，特别涉及一种大数据基因测序文件的快速切分方法。

背景技术

随着大健康领域的快速发展，基因分析技术扮演了越来越重要的角色。基因测序仪产出了海量的测序文件，最常用的测序文件格式为fastq格式。每个测序文件少则几G，多则几十G到上百G。如何快速的处理这些大数据，越来越成为基因分析的瓶颈。

由于测序文件很大，用单节点进行分析处理要花费大量的时间，因此需要多个节点进行并行计算，来减少基因分析的时间。这就需要对测序文件进行划分，每个节点只处理测序文件的一部分，最后将处理结果合并，从而在较短的时间内获得基因分析的完整结果。

当用多个节点去处理测序文件时，普通的切分方法是将测序文件按照节点个数进行均分，然后生成多个子文件，写入硬盘，各个节点分别读取相应的子文件进行处理。这种方法虽然简便方便，但是会增加硬盘读写负担。

并且，普通的切分方法可能会影响后续程序的结果。在测序分析中，通常利用bwa、bowtie等序列比对软件进行分析比对。例如，bwa程序是对文件进行按块读取的，其运算过程中每次处理fastq文件的一个块。由于普通的切分方法没有考虑到这一点，影响了bwa的结果，容易造成比对结果的不一致。

发明内容

本发明提供一种针对大数据基因测序文件的快速划分方法，包括：

步骤101，设置文件块的大小；

步骤102，根据步骤101设置的文件块大小对fastq文件进行分析统计，划分成多个文件块；将每个文件块的位置信息和文件块的总数保存到信息文件中；

步骤103，根据节点的数量和每个节点的核数，计算每个节点要处理的文件块数量数量，确定每个节点要处理的文件部分在fastq文件中的开始位置和结束位置；

步骤104，根据步骤103确定的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置，生成读取指令，通过管道的方式提供给后续程序。

优选地，上述方法中的步骤102还包括：如果文件块的结束位置在某个序列的中间，则将文件块扩展至该序列的结尾。

优选地，上述方法中的文件块的位置信息包括文件块的起始位置和结束位置。

优选地，上述方法中的文件块的大小的取值范围可在1M至100M之间。

优选地，上述方法中的步骤103中每个节点需要处理的文件块数量按如下公式计算：

其中，B_i为第i个节点处理的文件块数；

c_i为第i个节点的核数；

B_t为总的文件块数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

根据本发明的另一个方面，提供一种针对大数据基因测序文件的快速划分方法，包括：

步骤201，按照序列对fastq文件进行分析统计，获得每条序列的位置信息和序列的总数；

步骤202，根据节点的数量和每个节点的核数，计算每个节点需要处理的序列数量，确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置；

步骤203，根据步骤202得出的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置，生成读取指令，通过管道的方式提供给后续程序。

优选地，上述方法的序列的位置信息包括序列的起始位置和结束位置。

优选地，上述方法中的步骤202中每个节点需要处理的序列数量按如下公式计算：

其中，S_i为第i个节点处理的序列数；

c_i为第i个节点的核数；

S_t为总的序列数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述任一方法。

一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于所述处理器执行所述程序时实现上述任一方法。

本发明针对现有技术的不足，对fastq文件采用了懒划分的策略，不生成子文件，从而避免了子文件的读写和存储。并且加入了多种划分方式，供后续分析软件使用。本发明的方法减少了硬盘读写次数，提高了文件划分速度，消除了比对错误。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是根据本发明一个实施例的按块划分方法的流程示意图。

图2是根据本发明一个实施例的按序列划分方法的流程示意图。

具体实施方式

在详细说明本方法之前，先简单介绍fastq文件的格式。fastq文件是文本文件，每四行为一个序列，第一行是序列的名称信息，第二行是碱基序列，第三行是说明信息，第四行是序列的质量分数信息。每个序列的长度不完全相同。测序文件分为单端测序文件和双端测序文件，单端测序文件只包含一个文件，双端测序文件包含一对文件，这一对文件中的每个序列都是对应的。

根据本发明的一个实施例，结合图1介绍按块划分的方法，该方法包括以下步骤。

步骤101，设置文件块的大小，优选的，其取值范围可在1M至100M之间。

发明人研究发现，基因测序分析工具bwa在比对过程中，对测序文件按块读取。发明人发现，当使用多节点运行bwa工具并行地对fastq文件比对时，按块划分fastq文件有利于负载均衡。此文件块的大小可根据不同的分析软件以及节点的处理能力采用不同的取值，优选的，其取值范围可在1M至100M之间。在本发明的一个实施例中，此文件块的大小取值为10M时，可以获得较佳的处理速度和负载均衡效果。

步骤102，根据上一步骤设置的块大小对fastq文件进行分析统计，并划分成多个文件块；以及将分析结果保存到信息文件中。

按块大小分析fastq文件时，以块大小10M为例，从文件起始位置向后偏移10M字节，如果此字节数据恰好在一个序列的结尾，则将第一个文件块的起始位置设为0，结束位置设为10M。如果此字节数据在某个序列的中间，则将第一个文件块的结束位置设置为该序列的结尾位置。找到了fastq文件的第一个文件块位置后，将其起始位置和结束位置存入信息文件。可以看出，此第一个文件块的大小大于或等于10M，并且包含了完整的序列数据。然后，将第一个文件块的结束位置偏移一个字节，作为第二个文件块的起始位置，继续向后偏移10M字节，如果当前字节数据恰好处于一个序列的结尾，则将当前字节的位置设为第二块的结束位置，如果当前字节数据处于一个序列的开始或中间，则将第二块的结束位置设置为该序列的结尾位置。以此类推，一直分析到fastq文件的结尾，找到所有文件块的起始位置和结束位置并存入信息文件。根据本发明的一个实施例，显然，在信息文件中也可以只存入起始位置。可以看出，最后一个文件块的大小可能小于10M，因此，除了最后一个文件块之外，其他每个文件块的大小会略有不同，在10M附近浮动。并且，每个文件块都包含了多个完整的序列，一个序列只存在于一个文件块中。根据本发明的一个实施例，在分析过程中，还累计文件块的个数并将其存入信息文件。

对于双端测序文件，如果两个文件大小一致，则按照其中一个文件进行按块统计分析，如果两个文件大小不一致，则两个文件分别按照本发明中另一个按序列划分的方法进行划分。

步骤103，根据节点的数量和每个节点的核数，计算每个节点需要处理的文件块数量，根据步骤102得出的统计信息，确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置。

具体来说，在多节点基因分析流程中，每个计算节点的核数和计算能力不尽相同，因此在进行测序文件划分的时候，要考虑到这些情况，为每个节点确定其处理范围，使得负载更均衡。

根据本发明的一个实施例，每个节点处理的文件块数按照公式1计算。

其中，B_i为第i个节点处理的块数；

c_i为第i个节点的核数；

B_t为总的文件块数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

计算出每个节点需要处理的文件块数量后，即可通过所述的信息文件确定出每个节点要处理的文件部分在原测序文件中的起始位置和结束位置。

步骤104，根据步骤103得出的每个节点要处理的文件部分在原测序文件中的起始位置和结束位置生成读取指令，通过管道的方式提供给后续程序。

管道命令是现有技术，此处以Linux系统为例作简单介绍。Linux管道使用竖线“|”连接多个命令，其被称为管道符。Linux管道的具体语法格式如下：

command1|command2

在本发明中，command1是读取fastq文件范围的指令，command2是bwa等按块分析工具的指令。

根据本发明的另一个方面，发明人还发现，bowtie是按照序列处理fastq文件，因此当后续处理程序是bowtie等按序列分析的工具时，需要将fastq文件按照序列划分。

下面根据本发明的一个实施例，结合图2介绍按序列划分的方法，该方法包括以下步骤。

步骤201，按照序列对fastq文件进行分析统计。在分析fastq文件的同时，将分析结果保存到信息文件中。

具体来说，在分析过程中，将每条序列的起始和结束位置进行分析记录，并统计序列的数量，保存到信息文件。

对于双端测序文件，如果两个文件大小一致，则按照其中一个文件进行按序列统计分析，如果二者大小不一致，则两个文件分别按照序列进行统计分析。

步骤202，根据节点的数量和每个节点的核数，计算每个节点需要处理的序列数量，根据步骤201得出的统计信息，确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置。

根据本发明的一个实施例，在多节点基因分析流程中，每个计算节点的核数和计算能力不尽相同，因此在进行测序文件划分的时候，要考虑到这些情况，为每个节点确定其处理范围，使得负载更均衡。

每个节点处理的序列数按照公式2计算。

其中，S_i为第i个节点处理的序列数；

c_i为第i个节点的核数；

S_t为总的序列数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

计算出每个节点需要处理的序列数量后，即可通过所述的信息文件确定出每个节点要处理的文件部分在原测序文件中的起始位置和结束位置。

步骤20304，根据步骤202得出的每个节点要处理的文件部分在原测序文件中的起始位置和结束位置生成读取指令，通过管道的方式提供给后续程序。

管道命令格式如下：

command1|command2

其中，command1是读取fastq文件范围的指令，command2是bowtie等按序列分析的工具的指令。

本发明提出了一种对大数据基因测序文件的快速划分方法，使得在多节点基因分析过程中，无须对测序文件进行实际的切分，不产生子文件，根据后续分析程序提供灵活的划分方案，从而使得各个节点负载更均衡，减少了硬盘读写，提高了划分效率。

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种针对大数据基因测序文件的快速划分方法，包括：

步骤101，设置文件块的大小；

步骤102，根据步骤101设置的文件块大小对fastq文件进行分析统计，划分成多个文件块；将每个文件块的位置信息和文件块的总数保存到信息文件中，所述文件块的位置信息包括文件块的起始位置和结束位置；

步骤103，根据节点的数量和每个节点的核数，计算每个节点要处理的文件块数量，确定每个节点要处理的文件部分在fastq文件中的开始位置和结束位置；

步骤104，根据步骤103确定的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置，生成读取指令，通过管道的方式提供给后续程序，

其中，所述步骤103中每个节点需要处理的文件块数量按如下公式计算：

其中，B_i为第i个节点处理的文件块数；

c_i为第i个节点的核数；

B_t为总的文件块数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

2.如权利要求1所述的针对大数据基因测序文件的快速划分方法，所述步骤102还包括：如果文件块的结束位置在某个序列的中间，则将文件块扩展至该序列的结尾。

3.如权利要求1所述的针对大数据基因测序文件的快速划分方法，所述文件块的大小的取值范围在1M至100M之间。

4.一种针对大数据基因测序文件的快速划分方法，包括：

步骤201，按照序列对fastq文件进行分析统计，获得每条序列的位置信息和序列的总数并保存到信息文件中，所述序列的位置信息包括序列的起始位置和结束位置；

步骤203，根据步骤202得出的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置，生成读取指令，通过管道的方式提供给后续程序，

其中，所述步骤202中每个节点需要处理的序列数量按如下公式计算：

其中，S_i为第i个节点处理的序列数；

c_i为第i个节点的核数；

S_t为总的序列数；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

5.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1-4任意一项所述的方法。

6.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于所述处理器执行所述程序时实现根据权利要求1-4任意一项所述的方法。