CN111081318B

CN111081318B - 一种融合基因检测方法、系统和介质

Info

Publication number: CN111081318B
Application number: CN201911243763.8A
Authority: CN
Inventors: 曾华萍; 传军; 吴桂枝; 王益民
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-06-06
Anticipated expiration: 2039-12-06
Also published as: CN111081318A

Abstract

本发明公开了一种融合基因检测方法、系统和介质，本发明实施步骤包括：确定输入文件，对输入文件的各条测序读段read进行过滤后，获取断点信息和断点关系并进行频数统计；针对找到的每一个断点，确定该断点的融合kmer序列及参考kmer序列，判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数；判断各个成对断点融合类型和所在基因，输出各个成对断点的融合基因检测结果。本发明能够极大地减少数据处理量和提高数据融合基因检测的效率；本发明充分考虑了重叠的融合方式，融合方式检测更加明确，能够可实现精确分析断裂读段的比对情况对融合基因进行精确检测，具有速度快、检测频率精准、灵敏度高的优点。

Description

一种融合基因检测方法、系统和介质

技术领域

本发明涉及基因检测技术，具体涉及一种融合基因检测方法、系统和介质。

背景技术

基因融合是一种重要的基因组结构变异，二代基因组测序包括WGS（全基因组测序）、WES（全外显子测序）以及区域捕获，是检测融合基因的一种广泛应用的方式。

检测融合基因通常根据discordant read（不和谐读段）和split read（断裂读段）来检测，其中最重要的是split read，通过split read可以确定断点的位置，断点的深度和频率。因此大部分融合检测软件都会根据split read来判断。但是，实际分析过程中发现目前的大部分融合检测软件目前会存在下述问题：

1、由于bam文件中存在大量非基因融合导致的split read，占比甚至达90%以上，而一一对这些split read进行融合基因分析，消耗了大量的计算资源和运算时间，导致目前大部分融合基因检测软件运行速度过慢。2、现有的融合基因检测方法在进行融合基因检测时没有考虑断点间的交叠（overlap）关系，使得融合方式检测不明确。

而且，现有的融合基因检测方法实际上在使用过程中普遍存在检测不够精确、或者速度有点慢、甚至检测不出来的现象。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种融合基因检测方法、系统和介质，本发明通过基于软剪切softclip类型进行进一步过滤能够减少90%以上和融合基因检测没有关系的无关数据处理和运算，能够极大地减少数据处理量和提高融合基因检测的效率；本发明详细阐述成对断点之间的重叠或间距大小，充分考虑了基因融合的具体方式，融合方式检测更加明确，本发明根据各个断点处融合kmer序列和参考kmer序列的频数统计结果，确定各个断点最终的融合kmer序列以及参考kmer序列，然后针对所有覆盖该断点的测序读段，根据与融合kmer序列和参考kmer序列的相似度，判断是融合读段还是参考读段，从而实现对基因融合频率的精确检测，具有速度快、检测频率精准、灵敏度高的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种融合基因检测方法，实施步骤包括：

1）确定输入文件，所述输入文件为bam文件、或sam文件、或cram文件；

2）对输入文件的各条测序读段read进行过滤后，获取断点信息和断点关系并进行频数统计，断点信息包括断点位置及断点处的融合kmer序列，断点关系包括成对断点的重叠或间距大小；

3）针对找到的每一个断点，确定该断点的融合kmer序列及参考kmer序列，判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数；

4）判断各个成对断点融合类型和所在基因，输出各个成对断点的融合基因检测结果。

可选地，步骤2）中的过滤包括初步过滤，所述初步过滤具体是指针对每一条测序读段read或者一对测序读段read：过滤cigar域中不包含软剪切softclip的比对记录，过滤比对质量低于设定门槛值的记录，过滤复制或者补充比对记录，其中非软剪切softclip、比对质量、复制或者补充比对记录的信息均来自输入文件信息。

可选地，步骤2）中的过滤包括进一步过滤，所述进一步具体是指：针对每一条测序读段read或者一对测序读段read初步判断cigar域中软剪切softclip的原因，如果软剪切softclip的原因为测通或末端测序错误，则将该条测序读段或者该对测序读段read过滤删除。

可选地，所述软剪切softclip的原因为测通是指同时满足下述三个条件：(i)测序读段的双端比对在相同的染色体上，且插入片段大小等于匹配的长度；(ii)开头匹配、末端不匹配；(iii)成对的另一条测序读段的开头也匹配；所述软剪切softclip的原因为末端测序错误是指同时满足下述三个条件：(i)测序读段双端比对在相同的染色体上，且插入片段大小小于设定值；(ii)测序读段开头匹配，末端不匹配；(iii)不匹配部分的质量值平均值低于设定值。

可选地，步骤2）中获取断点信息和断点关系的详细步骤包括：获取断点的位置、断点处的比对方向、断点处的融合kmer序列，并对各断点处的融合kmer序列进行频数计数，并根据各个测序读段read的所有比对区域，获得成对断点并确定成对断点之间的重叠或间距大小作为断点关系。

可选地，步骤3）中确定该断点的融合kmer序列的详细步骤包括：根据步骤2）中进行频数统计获得的融合kmer序列的频数结果，确定频数显著高的1条或2条融合kmer序列为最终的融合kmer序列；步骤3）中确定该断点的参考kmer序列的详细步骤包括：首先获取覆盖该断点的所有cigar域不包含软剪切softclip的测序读段read，获得每条测序读段read在该断点处的参考kmer序列并进行频数统计，确定频数显著高的1条或2条参考kmer序列为最终的参考kmer序列。

可选地，步骤3）中判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数的详细步骤包括：首先初始化该断点的融合读段和参考读段的计数；然后获取该断点的所有测序读段read进行遍历，且针对每一条遍历得到的测序读段read，分别计算该测序读段read在断点处的序列与融合kmer序列和参考kmer序列的相似度，若与融合kmer序列相似度更高，则判定该测序读段read为融合读段、并将融合读段计数加1，若与参考kmer序列的相似度更高则判定该测序读段read为参考读段、并将参考读段计数加1；最终完成遍历后得到该断点的融合读段计数、参考读段计数。

可选地，步骤中4）判断各个成对断点的融合类型为缺失、复制、反转和易位四种类型之一，输出各个成对断点的融合基因检测结果包括成对断点的位置、成对断点的所在基因、融合类型、融合深度、总深度、断点的自身kmer序列、断点的融合kmer序列、成对断点的距离，所述融合深度为断点的融合读段计数，所述总深度为断点的融合读段计数与参考读段计数之和，所述成对断点的距离为成对断点之间的重叠或间距大小。

此外，本发明还提供一种融合基因检测系统，包括计算机设备，该计算机设备被编程或配置以执行所述融合基因检测方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行所述融合基因检测方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述融合基因检测方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明详细阐述成对断点之间的重叠或间距大小，充分考虑了基因融合的具体方式，融合方式检测更加明确。

2、本发明通过确定各个断点的融合kmer序列以及参考kmer序列，并针对所有覆盖该断点的测序读段，根据与融合kmer序列和参考kmer序列的相似度，判断是融合读段还是参考读段，从而实现对基因融合的精确检测，具有速度快、检测频率精准、灵敏度高的优点。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的详细流程示意图。

图3为本发明实施例中成对断点（断点1和断点2）示意图。

图4为本发明实施例中成对断点的重叠示意图。

具体实施方式

下文将以bam文件为例，对本发明融合基因检测方法、系统和介质进行进一步的详细说明。bam文件是目前基因数据分析中最通用的比对数据存储格式，它既适合于短测序读段也适合于长测序读段，最长可以支持128Mbp的超大测序读段。除了bam文件后缀是.bam之外，cram文件（文件后缀是. cram）都是bam文件的高压缩格式——IO效率比原来的bam文件要略差；sam文件（文件后缀是.sam）是bam文件的纯文本格式。但是，bam/sam/cram文件三者的文件格式都是一样的，所以，本发明融合基因检测方法、系统和介质不仅可以适用于bam文件，同样也可以适用于sam/cram文件。

如图1和图2所示，本实施例融合基因检测方法的实施步骤包括：

2）对输入文件的各条测序读段read进行过滤并获取断点信息和断点关系并进行频数统计，断点信息包括断点位置及断点处的融合kmer序列，断点关系包括成对断点的重叠或间距大小；

一般而言，初步过滤是进行融合基因检测而言的常规步骤，因为本领域技术人员来进行融合基因检测时或多或少都会知道需要进行初步过滤。本实施例中，步骤2）中的过滤包括初步过滤，所述初步过滤具体是指针对每一条测序读段read或者一对测序读段read：过滤cigar域中不包含软剪切softclip的比对记录（即整条读段完全比对的比对记录），过滤比对质量低于设定门槛值（本实施例中设置为20）的记录，过滤复制或者补充比对记录，其中非软剪切softclip、比对质量、复制（duplicate）或者补充比对（suppliment）记录的信息均来自输入文件信息（bam文件的文件头）。

由于bam文件中存在大量非基因融合导致的split read，占比甚至达90%以上，而一一对这些split read进行融合基因分析，消耗了大量的计算资源和运算时间，导致目前大部分融合基因检测软件运行速度过慢。。为了减少数据处理量、提高数据处理效率，本实施例步骤2）中的过滤包括进一步过滤，所述进一步具体是指：针对每一条测序读段read或者一对测序读段read初步判断cigar域中软剪切softclip的原因，如果软剪切softclip的原因为测通或末端测序错误，则将该条测序读段或者该对测序读段read过滤删除。剪切clip在bam比对文件里面用于描述那些一条序列上在序列两端比对不上的碱基序列，剪切clip分为软剪切softclip（Soft Clip）和hardclip（Hard Clip），软剪切softclip（有时候也写作Soft Clip）是指虽然比对不到基因组，但是还是存在于SEQ (segment SEQuence)中的序列，此时在bam文件中的CIGAR列对应的S(Soft)的符号，软剪切softclip是指虽然比对不上参考基因组，但是在bam文件中的read上还是存在的序列（并没有被截断扔掉的序列）。hardclip（Hard Clip）则表示比对不上并且不会存在于bam文件中的序列（被截断扔掉了的序列，此时CIGAR列会留下H(Hard)的符号，但是序列的那一列却没有对应的序列了）。本发明通过基于软剪切softclip类型进行进一步过滤能够减少90%以上和融合基因检测没有关系的无关数据处理和运算，能够极大地减少数据处理量和提高数据融合基因检测的效率。

本实施例中，软剪切softclip的原因为测通是指同时满足下述三个条件：(i)测序读段的双端比对在相同的染色体上，且插入片段大小等于匹配的长度；(ii)开头匹配、末端不匹配；(iii)成对的另一条测序读段的开头也匹配。

本实施例中，软剪切softclip的原因为末端测序错误是指同时满足下述三个条件：(i)测序读段双端比对在相同的染色体上，且插入片段大小小于设定值（本实施例在具体取值为1000bp）；(ii)测序读段开头匹配，末端不匹配；(iii)不匹配部分的质量值平均值低于设定值。

本实施例中，步骤2）中获取断点信息和断点关系的详细步骤包括：获取断点的位置、断点处的比对方向、断点处的融合kmer序列，并对各断点处的融合kmer序列进行频数计数，并根据各个测序读段read的所有比对区域，获得成对断点并确定成对断点之间的重叠或间距大小作为断点关系；kmer序列是固定长度的序列，例如k=12时即为12mer，表示固定12bp的序列，本实施例中即为采用12mer。

断点：当测序读段的一段比到参考基因组的某一个位置，而相邻的另一段未比到该位置（可能比到另一个位置，也可能未比到基因组的任何位置）时，测序读段上这两段序列相接的位置（理解为测序读段的断点）对应参考基因组上的位置称为断点，若测序读段的多段对应比到参考基因组的多个位置，则该测序读段在参考基因组上有多个断点，测序读段位置上相邻的两个断点（断点连接的断点）称为成对断点。图3所示为断点1和断点2为成对断点的实例，其中ref1和ref2表示参考基因序列，Readk表示第k各测序读段，断点1和断点2的比对方向相反。图4所示为断点1和断点2之间存在重叠（overlap）的实例，其中ref1和ref2表示参考基因序列，Readk表示第k各测序读段，断点1和断点2的比对方向相反，overlap为断点1和断点2之间的重叠部分。

自身kmer序列和融合kmer序列：当测序读段的一段序列比到参考基因组的某个位置（另一段序列未比到该处）时，测序读段上该断点位置之前12bp的序列称为自身kmer序列，该断点位置之后的12bp序列称为融合kmer序列。

步骤3）中确定该断点的融合kmer序列的详细步骤包括：根据步骤2）中进行频数统计获得的融合kmer序列的频数结果，确定频数显著高的1条或2条融合kmer序列为最终的融合kmer序列；步骤3）中确定该断点的参考kmer序列的详细步骤包括：首先获取覆盖该断点的所有cigar域不包含软剪切softclip的测序读段read（即完全比到基因组的测序读段），获得每条测序读段read在该断点处的参考kmer序列并进行频数统计，确定频数显著高的1条或2条参考kmer序列为最终的参考kmer序列。

本实施例中，确定频数显著高的1条或2条融合kmer序列、以及确定频数显著高的1条或2条参考kmer序列时采用的方法如下：将kmer序列（融合kmer序列或参考kmer序列）按频数从高到底进行排序为（d1、d2、…di、d(i+1)…dn），如果di-d(i+1)/di>预设门槛值（本实施例具体取值为0.65），则认为前i个kmer都是深度显著高的kmer，即最终的kmer序列；由于基因组为2倍体，最多同时存在2个最终kmer序列，所以如果i<=2，该断点存在i个融合kmer序列，如果i>2，则认为该断点存在问题，过滤掉；其中i=1 … n-1。

本实施例中，步骤3）中判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数的详细步骤包括：首先初始化该断点的融合读段和参考读段的计数；然后获取该断点的所有测序读段read进行遍历，且针对每一条遍历得到的测序读段read，分别计算该测序读段read在断点处的序列与融合kmer序列和参考kmer序列的相似度，若与融合kmer序列相似度更高，则判定该测序读段read为融合读段、并将融合读段计数加1，若与参考kmer序列的相似度更高则判定该测序读段read为参考读段、并将参考读段计数加1；最终完成遍历后得到该断点的融合读段计数、参考读段计数。

本实施例中，步骤中4）判断各个成对断点的融合类型为缺失、复制、反转和易位四种类型之一，输出各个成对断点的融合基因检测结果包括成对断点的位置、成对断点的所在基因、融合类型、融合深度、总深度、断点的自身kmer序列、断点的融合kmer序列、成对断点的距离，所述融合深度为断点的融合读段计数，所述总深度为断点的融合读段计数与参考读段计数之和，所述成对断点的距离为成对断点之间的重叠或间距大小（小于0表示为重叠，大于0表示为间距）。

本实施例的成对断点的融合类型仅包括缺失、复制、反转和易位四种类型：

A. 缺失(Deletion)

当两成对断点的染色体号相同，比对方向相同，且断点1的位置小于断点2的位置时，融合类型为缺失。

B. 复制（Duplication）、

当两成对断点的染色体号相同，比对方向相同，且断点1的位置大于断点2的位置时，融合类型为复制。

C. 反转（Inversion）

当两成对断点的染色体号相同，比对方向相反时，融合类型为反转。

D.易位（Translocation，包括示意图中的E和F）。

当两成对断点的染色体号不同时，融合类型为易位。

此外，本实施例还提供一种融合基因检测系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述融合基因检测方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述融合基因检测方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述融合基因检测方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合基因检测方法，其特征在于实施步骤包括：

2）对输入文件的各条测序读段read进行过滤后，获取断点信息和断点关系并进行频数统计，断点信息包括断点位置及断点处的融合kmer序列，断点关系包括成对断点的重叠或间距大小；所述过滤包括初步过滤和进一步过滤，所述进一步过滤是指：针对每一条测序读段read或者一对测序读段read初步判断cigar域中软剪切softclip的原因，如果软剪切softclip的原因为测通或末端测序错误，则将该条测序读段或者该对测序读段read过滤删除；所述进行频数统计包括对各断点处的融合kmer序列进行频数计数；

3）针对找到的每一个断点，确定该断点的融合kmer序列及参考kmer序列，判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数；所述确定该断点的融合kmer序列及参考kmer序列包括：根据步骤2）中进行频数统计获得的融合kmer序列的频数结果，确定频数显著高的1条或2条融合kmer序列为最终的融合kmer序列；所述确定该断点的参考kmer序列的详细步骤包括：首先获取覆盖该断点的所有cigar域不包含软剪切softclip的测序读段read，获得每条测序读段read在该断点处的参考kmer序列并进行频数统计，确定频数显著高的1条或2条参考kmer序列为最终的参考kmer序列；所述进行统计计数包括对融合读段和参考读段分别进行统计计数；

4）判断各个成对断点融合类型和所在基因，输出各个成对断点的融合基因检测结果；所述各个成对断点的融合基因检测结果包括成对断点的位置、成对断点的所在基因、融合类型、融合深度、总深度、断点的自身kmer序列、断点的融合kmer序列、成对断点的距离，所述融合深度为断点的融合读段计数，所述总深度为断点的融合读段计数与参考读段计数之和，所述成对断点的距离为成对断点之间的重叠或间距大小。

2.根据权利要求1所述的融合基因检测方法，其特征在于，步骤2）中的初步过滤具体是指针对每一条测序读段read或者一对测序读段read：过滤cigar域中不包含软剪切softclip的比对记录，过滤比对质量低于设定门槛值的记录，过滤复制或者补充比对记录，其中非软剪切softclip、比对质量、复制或者补充比对记录的信息均来自输入文件信息。

3.根据权利要求1所述的融合基因检测方法，其特征在于，所述软剪切softclip的原因为测通是指同时满足下述三个条件：(i)测序读段的双端比对在相同的染色体上，且插入片段大小等于匹配的长度；(ii)开头匹配、末端不匹配；(iii)成对的另一条测序读段的开头也匹配；所述软剪切softclip的原因为末端测序错误是指同时满足下述三个条件：(i)测序读段双端比对在相同的染色体上，且插入片段大小小于设定值；(ii)测序读段开头匹配，末端不匹配；(iii)不匹配部分的质量值平均值低于设定值。

4.根据权利要求1所述的融合基因检测方法，其特征在于，步骤2）中获取断点信息和断点关系的详细步骤包括：获取断点的位置、断点处的比对方向、断点处的融合kmer序列，并对各断点处的融合kmer序列进行频数计数，并根据各个测序读段read的所有比对区域，获得成对断点并确定成对断点之间的重叠或间距大小作为断点关系。

5.根据权利要求1所述的融合基因检测方法，其特征在于，步骤3）中判断覆盖该断点的测序读段read是融合读段还是参考读段并进行统计计数的详细步骤包括：首先初始化该断点的融合读段和参考读段的计数；然后获取该断点的所有测序读段read进行遍历，且针对每一条遍历得到的测序读段read，分别计算该测序读段read在断点处的序列与融合kmer序列和参考kmer序列的相似度，若与融合kmer序列相似度更高，则判定该测序读段read为融合读段、并将融合读段计数加1，若与参考kmer序列的相似度更高则判定该测序读段read为参考读段、并将参考读段计数加1；最终完成遍历后得到该断点的融合读段计数、参考读段计数。

6.根据权利要求1所述的融合基因检测方法，其特征在于，步骤中4）判断各个成对断点的融合类型为缺失、复制、反转和易位四种类型之一。

7.一种融合基因检测系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～6中任意一项所述融合基因检测方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～6中任意一项所述融合基因检测方法的计算机程序。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～6中任意一项所述融合基因检测方法的计算机程序。