CN117133357A

CN117133357A - Igk基因重排的检测方法、装置、电子设备及存储介质

Info

Publication number: CN117133357A
Application number: CN202210552015.3A
Authority: CN
Inventors: 袁丹
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-11-28
Also published as: WO2023221986A9; US20240412817A1; WO2023221986A1

Abstract

本发明公开了一种IGK基因重排的检测方法、装置、电子设备及存储介质，检测方法包括：获得测试样本的第一端测序序列和第二端测序序列；基于第一端测序序列和第二端测序序列进行组装，获得组装序列；基于组装序列，从基因参考数据库中确定目标比对基因；基因参考数据库包括IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；基于目标比对基因，确定组装序列中的IGK基因重排结果。上述方法能够对IGK中的VJ基因重排、V‑Kde基因重排和J_C_intron‑Kde基因重排进行自动检测。

Description

IGK基因重排的检测方法、装置、电子设备及存储介质

技术领域

本发明涉及基因检测技术领域，尤其涉及一种IGK基因重排的检测方法、装置、电子设备及存储介质。

背景技术

多能造血干细胞向淋巴细胞系定向分化时会发生基因重排，每一个淋巴细胞的基因重排序列均是独特的，也就是说正常淋巴细胞基因是多克隆性重排。但是淋巴瘤细胞及其子代细胞是同一个克隆，它们具有同样的基因编码，肿瘤细胞的DNA扩增物电泳时会在特定的区域出现一条特异性条带。而淋巴结反应性增生患者及正常人的淋巴细胞的扩增物电泳时均为弥漫性条带。目前研究显示，基因重排均为后天获得的基因损伤，淋巴瘤细胞是由发生基因异常的细胞单克隆增殖形成，故出现单克隆性改变。这种单克隆的基因重排可作为检测细胞淋巴瘤的特异性分子标志物而用于B细胞淋巴瘤的诊断，并且此克隆性的检测有助于鉴别多克隆反应性增生和恶性增殖性疾病。

研究表明60％的B系儿童急性淋巴细胞白血病(B-ALL)病例中发现免疫球蛋白Kappa(Immunoglobulin Kappa，简称IGK)基因重排，而IGK基因重排与Kappa删除元件(简称Kde基因)的缺失重排有关。Kde基因的重组信号序列大致位于C基因片段的下游约24Kb处，Kde的重排类型具体有1)V-Kde重排：Kde的重组信号序列可重新排列为V基因片段，导致J基因、C基因缺失；2)J_C_intron-Kde重排：J基因和C基因之间的内含子(intron)中的重组信号序列与Kde基因的重组信号序列发生重排，导致C基因的缺失。

目前的基因重排检测工具包括MiGEC、Mixcr、IgBlast等，但均是对IGH、IGK、TRB、TRD等基因的V(D)J基因重排鉴定，缺乏对IGK基因的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行检测的方案。

发明内容

鉴于上述问题，本发明提出了一种IGK基因重排的检测方法、装置、电子设备及存储介质，以解决或部分解决如何对IGK基因重排中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行检测的技术问题。

第一方面，本发明通过一实施例提供一种IGK基因重排的检测方法，包括：

获得测试样本的双端测序数据；所述双端测序数据包括第一端测序序列和第二端测序序列；

基于所述第一端测序序列和第二端测序序列进行组装，获得组装序列；

基于所述组装序列，从基因参考数据库中确定目标比对基因；其中，所述基因参考数据库包括生殖细胞系中的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，所述目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；

基于所述目标比对基因，确定所述组装序列中的IGK基因重排结果。

在一些可选的实施例中，所述第一端测序序列包括多个第一读长序列，所述第二端测序序列包括多个第二读长序列；

所述基于所述第一端测序序列和所述第二端测序序列进行组装，获得组装序列，包括：

遍历所述第一读长序列，确定与所述第一读长序列对应的第一相似读长序列；基于每一组所述第一读长序列和所述第一相似读长序列进行多数投票，获得第一端矫正序列；以及遍历所述第二读长序列，确定与所述第二读长序列对应的第二相似读长序列；基于每一组所述第二读长序列和所述第二相似读长序列进行多数投票，获得第二端矫正序列；

基于所述第一端矫正序列和所述第二端矫正序列进行组装，获得所述组装序列。

在一些可选的实施例中，所述基于每一组所述第一读长序列和所述第一相似读长序列进行多数投票，获得第一端矫正序列，包括：

基于每一组所述第一读长序列和所述第一相似读长序列，确定相似数量；在所述相似数量大于设定值时，对所述第一读长序列和所述第一相似读长序列中的每一位碱基进行多数投票，获得第一矫正读长序列；根据所有的所述第一矫正读长序列，获得所述第一端矫正序列；

所述基于每一组所述第二读长序列和所述第二相似读长序列进行多数投票，获得第二端矫正序列，包括：

基于每一组所述第二读长序列和所述第二相似读长序列，确定相似数量；在所述相似数量大于设定值时，对所述第二读长序列和所述第二相似读长序列中的每一位碱基进行多数投票，获得第二矫正读长序列；根据所有的所述第二矫正读长序列，获得所述第二端矫正序列。

在一些可选的实施例中，在获得所述第一端矫正序列和所述第二端矫正序列之后，所述检测方法还包括：

切除所述第一矫正读长序列中的接头序列，获得第一预处理读长序列，并根据所有的第一预处理读长序列获得第一端预处理序列；以及切除所述第二矫正读长序列中的接头序列，获得第二预处理读长序列，并根据所有的第二预处理读长序列获得第二端预处理序列；

所述基于所述第一端矫正序列和所述第二端矫正序列进行组装，获得所述组装序列，包括：

基于所述第一端预处理序列和所述第二端预处理序列进行组装，获得所述组装序列。

在一些可选的实施例中，在获得所述第一端预处理序列和所述第二端预处理序列之后，所述检测方法还包括：

删除长度低于第一设定长度的第一预处理读长序列，获得第一端待组装序列；以及删除长度低于所述第一设定长度的第二预处理读长序列，获得第二端待组装序列；

所述基于所述第一端预处理序列和所述第二端预处理序列进行组装，获得所述组装序列，包括：

基于所述第一端待组装序列和所述第二端待组装序列进行组装，获得所述组装序列。

在一些可选的实施例中，所述第一设定长度的取值范围为10bp至100bp。

在一些可选的实施例中，所述基于所述第一端待组装序列和所述第二端待组装序列进行组装，获得所述组装序列，包括：

获得所述第二预处理读长序列的反向互补读长序列；

根据所述第一预处理读长序列和所述反向互补读长序列，确定重叠序列；

在所述重叠序列的长度不低于第二设定长度时，删除所述反向互补读长序列中的重叠序列，获得待组装读长序列；

将所述第一预处理读长序列与所述待组装读长序列拼接，获得组装读长序列；

基于所有的所述组装读长序列，获得所述组装序列。

在一些可选的实施例中，所述基于所述组装序列，从目标基因参考数据库中确定目标比对基因，包括：

基于设定比对参数，从所述目标基因参考数据库中确定与每一条所述组装读长序列对应的目标比对基因；

所述设定比对参数包括：所述组装读长序列中的比对片段与所述目标比对基因的相似度不低于90％，所述比对片段的长度取值范围为4至11。

在一些可选的实施例中，在所述目标比对基因只包括所述目标V基因和所述目标J基因时，所述基于所述目标比对基因，确定所述组装序列中的IGK基因重排结果，包括：

获得所述目标J基因中包括苯丙氨酸残基的核苷酸位置，基于所述核苷酸位置在所述组装序列中确定终止点；

在所述终止点之前的设定范围内检测所述组装序列中的半胱氨酸残基，将距所述终止点最近的半胱氨酸残基的位置点作为起始点；所述设定范围为所述终止点至所述终止点之前的60bp至90bp的组装序列片段；

根据所述起始点和所述终止点，确定所述组装序列中的CDR3区域。

基于所述目标V基因和所述目标J基因对所述组装序列进行聚类分析，获得所述组装序列中的克隆序列数以及克隆序列占比。

第二方面，本发明通过一实施例提供一种IGK基因重排的检测装置，包括：

获取模块，用于获得测试样本的双端测序数据；所述双端测序数据包括第一端测序序列和第二端测序序列；

组装模块，用于基于所述第一端测序序列和第二端测序序列进行组装，获得组装序列；

比对模块，用于基于所述组装序列，从基因参考数据库中确定目标比对基因；其中，所述基因参考数据库包括生殖细胞系中的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，所述目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；

确定模块，用于基于所述目标比对基因，确定所述组装序列中的IGK基因重排结果。

第三方面，本发明通过一实施例提供一种电子设备，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行第一方面实施例中任一项所述检测方法的步骤。

第四方面，本发明通过一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面实施例中任一项所述检测方法的步骤。

本发明提供的IGK基因重排的检测方法，通过基于双端测序原始数据中的第一端测序序列和第二端测序序列组装得到组装序列，将所述组装序列与生殖细胞系的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库中的基因参考序列进行对比，从所述基因库中确定出目标比对基因，包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；基于目标比对基因确定所述组装序列中的IGK基因重排结果。上述方法提供了一种对IGK基因中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行自动化流程检测的方案，适用于对淋巴瘤的微小残留病变与复发监测、免疫组库测序等需求下游分析鉴定。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本发明第一方面实施例提供的检测方法流程示意图；

图2示出了本发明第一方面实施例提供的组装读长序列的长度分布示意图

图3示出了本发明第二方面实施例提供的检测装置示意图；

图4示出了本发明第三方面实施例提供的电子设备示意图；

图5示出了本发明第四方面实施例提供的计算机可读存储介质示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了对IGK基因重排中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行检测，本发明提供了一种IGK基因重排的检测方法，其整体思路如下：

获得测试样本的双端测序数据；双端测序数据包括第一端测序序列和第二端测序序列；基于第一端测序序列和第二端测序序列进行组装，获得组装序列；基于组装序列，从基因参考数据库中确定目标比对基因；其中，基因参考数据库包括生殖细胞系中的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；基于目标比对基因，确定组装序列中的IGK基因重排结果。

上述方案基于双端测序原始数据中的第一端测序序列和第二端测序序列组装得到组装序列，将组装序列与生殖细胞系的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库中的基因参考序列进行对比，从基因库中确定出目标比对基因，包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；基于目标比对基因确定组装序列中的IGK基因重排结果。上述方法提供了一种对IGK基因中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行自动化流程检测的方案，适用于对淋巴瘤的微小残留病变(Minimal residual disease，MRD)与复发监测、免疫组库测序等需求下游分析鉴定。

在接下来的内容中，结合具体实施方式进行进一步的说明。

在具体实施方式中涉及的一些关键英文术语解释：

BCR：称为B细胞抗原受体，是一种长在B淋巴细胞表面的免疫球蛋白分子(Immunoglobulin，简称IG)，由2条重链(IGH)和2条轻链(IGK或者IGL)构成。

IGK轻链：由恒定区(C基因)和可变区(V基因、J基因)排列组成

人类IGK基因：位于2号染色体短臂上(2p11.2)，包含C基因、Kde基因和多种V基因、J基因。

CDR3区域：可变区中决定识别对象的区域，包含V基因的末端和J基因的前端。

在第一方面的实施例中，提供了一种基于高通量测序技术或基于“下一代”测序技术(“Next-generation”sequencing technology，简称NGS)的IGK基因重排的检测方法，请参阅图1，包括步骤S1～S4，具体如下：

S1：获得测试样本的双端测序数据；双端测序数据包括第一端测序序列和第二端测序序列；

具体的，测试样本是淋巴细胞的待测样本，测试样本经过核酸提取、文库构建等步骤后，送至高通量测序仪测序获得双端测序数据。

双端测序是将一条脱氧核糖核酸链(DeoxyriboNucleic Acid,DNA)在分别在正向和反向测序一遍。本实施例中的第一端测序序列表示在双端测序时沿DNA的第一方向测序得到的核酸序列，第二端测序序列表示在双端测序时沿DNA的第二方向测序得到的核酸序列。第一方向与第二方向方向相反，例如，第一方向可以是从左至右，第二方向可以是从右至左。

以目前一种常用的高通量测序数据表征标准为例，第一端测序序列和第二端测序序列的信息分别使用一个fastq文件存储，主要用于保存碱基序列和测序质量。碱基序列和测序质量采用ASCII编码表示。

一个fastq文件中存储有多个reads；一个reads为一个读长序列，又称测序短序列，是高通量测序仪单次测序得到的碱基序列。fastq文件中的一个reads具有四行信息，其示例如下：

@SRR835775.1 1/1

TAACCCTAACCCTAACCCTAACCCTA……

+

？？？B1ADDD8？？BB+C？B+:AA883CEE……

其中，第一行是reads的序列编号id和描述信息，用@开头；第二行为碱基序列；第三行以加号开头，是序列标示和描述；第四行为质量信息，与第二行的碱基序列相对应。

因此，第一端测序序列包括多个第一读长序列，第二端测序序列包括多个第二读长序列。

为了方便描述和区分，本发明实施例将第一端测序序列以及后续对它进行处理后的得到的序列统一标注为Read1，简称R1，第二端测序序列以及后续对它进行处理后得到的序列统一标注为Read2，简称R2；将R1中的reads标记为r_1i，将R2中的reads标记为r_2i；1≤i≤N且为整数；其中，i为reads的编号，N为第一端测序序列或第二端测序序列中包括的reads数量。

S2：基于第一端测序序列和第二端测序序列进行组装，获得组装序列；

组装序列是按基因测序的对应关系或reads的序列编号id，对第一端测序序列中的第一读长序列与第二端测序序列中的第二读长序列进行组装或拼接，从而得到完整的组装序列。在组装时可以调用现有工具，如Pear或Pandaseq，在此不做具体限定。

在一些可选的实施例中，在进行组装之前，先对第一端测序序列和第二端测序序列进行数据质量检查和预处理，目的是除低质量的reads以获得高质量的数据进行组装，从而提高后续目标基因比对的精度。

质量检查和预处理中的一种可选方案是对双端测序数据进行矫正，具体如下：

在获得测试样本的双端测序数据之后，遍历第一读长序列，确定与第一读长序列对应的第一相似读长序列；基于每一组第一读长序列和第一相似读长序列进行多数投票，获得第一端矫正序列；遍历第二读长序列，确定与第二读长序列对应的第二相似读长序列；基于每一组第二读长序列和第二相似读长序列进行多数投票，获得第二端矫正序列。

具体的，分别计算第一端测序序列中的每一个reads与其它reads之间的相似度，将相似度大于设定阈值的其它reads作为reads的相似读长序列。

例如，对于R1中的第一个读长序列r₁₁，依次计算r₁₁与r₁₂，r₁₃，…，r_1N之间的相似度，然后将相似度大于设定阈值的r_1j作为r₁₁的相似读长序列。同理依次确定r₁₂，r₁₃，…，r_1N对应的相似读长序列。碱基序列之间计算相似度的方法属于现有技术，在此不做赘述。设定阈值根据需求确定，此处不对此进行具体限定。

接下来是基于每一组第一读长序列和与该组第一读长序列所对应的第一相似读长序列进行多数投票。多数投票是对于一个包含n个元素的数组，找到其中的多数元素，用多数元素替换少数元素的矫正方案；其中多数元素是指在数组中出现次数大于[n/2]的元素。通过多数投票对第一端测序序列中进行矫正，得到第一端矫正序列，以减小基因测序过程中产生的测序误差，有利于提高后续基因比对精度和分析精度。

可选的，以reads中的每一位碱基作为投票元素，针对每一组第一读长序列r_1i和与r_1i对应的第一相似读长序列r_1j，依次取出相同位上的碱基进行多数投票，然后使用多数投票确定的碱基作为该位的矫正碱基。

进一步的，以第一端测序序列为例，一种可选的基于每一组第一读长序列和第一相似读长序列进行多数投票，获得第一端矫正序列的方法如下：

基于每一组第一读长序列和第一相似读长序列，确定相似数量；在相似数量大于设定值时，对第一读长序列和第一相似读长序列中的每一位碱基进行多数投票，获得第一矫正读长序列；根据所有的第一矫正读长序列，获得第一端矫正序列。

具体的，在对第一端测序序列进行内部相似计算时统计相似数量，当找到任一第一读长序列的一个相似读长序列，则该第一读长序列的相似数量自动+1。例如，对于读长序列r₁₁，若通过相似度计算找到与r₁₁相似的reads有：r₁₂，r₁₅，则相似数量为2；对于读长序列r₁₂，若通过相似度计算找到与r₁₂相似的reads有：r₁₃，r₁₄和r₁₇，则相似数量为3。

在统计每一组第一读长序列和对应的第一相似读长序列后，对于相似数量大于设定值的一组第一读长序列和第一相似读长序列进行多数投票，得到对应的第一矫正读长序列；而对于相似数量小于或等于设定值的一组第一读长序列和第一相似读长序列，可以直接删除，不参与到后续的序列组装和比对。设定值可以取1～3，优选值为2，即只保留相似数量大于2的第一读长序列和第一相似读长序列进行多数投票。

例如，对于某一组第一读长序列和第一相似读长序列，reads数量总计为5>2，则对该五个reads进行多数投票。五个reads的第一位碱基分别为A，T，A，A，T，则按照多数投票原则确定其多数碱基为A，将第一读长序列或全部五个reads的第一位碱基统一矫正为A。再按照相同的方法，分别对五个reads的第二位碱基、第三位碱基，直至末位碱基进行多数投票，将矫正后的第一读长序列确定为第一矫正读长序列。

在完成对所有组的第一读长序列和第一相似读长序列的多数投票矫正后，即可获得第一端矫正序列。

第二端测序序列与第一端测序序列同理，具体如下：

基于每一组第二读长序列和第二相似读长序列，确定相似数量；在相似数量大于设定值时，对第二读长序列和第二相似读长序列中的每一位碱基进行多数投票，获得第二矫正读长序列；根据所有的第二矫正读长序列，获得第二端矫正序列。

上述方法通过分别在第一端测序序列的内部，第二端测序序列的内部进行相似计算，保留相似数量>设置值的reads进行多数投票，能够矫正基因测序过程中产生的扩增错误，从而提高测序序列的可靠性，以提高后续的目标基因比对精度。

在一些可选的实施例中，在通过多数投票法矫正测序序列之前，还可以去除第一端测序序列和第二端测序序列中的包含未知核苷酸，即包括碱基N的reads，以及去除平均碱基质量低于设定质量的reads，以进一步提高测序序列的数据质量，并减少矫正测序序列的工作量。其中，设定质量的取值范围可以是20～25，优选20。

在一些可选的实施例中，在完成测序序列的多数投票矫正之后，检测方法还包括：

切除第一矫正读长序列中的接头序列，获得第一预处理读长序列，并根据所有的第一预处理读长序列获得第一端预处理序列；以及切除第二矫正读长序列中的接头序列，获得第二预处理读长序列，并根据所有的第二预处理读长序列获得第二端预处理序列；切除接头序列后可使用第一端预处理序列和第二端预处理序列进入后续的组装步骤。

具体来讲，接头序列(adptor)是在高通量测序过程中在目标测序片段两端加上的一段已知的短序列，用于在混合测序时区分不同的测试样本。故而在组装之前可进行切除。

以第一端矫正序列为例，切除接头序列可采用如下的方法：

通过调取R1的前4000～10000行，检索不同测序平台添加的接头序列，以鉴定并过滤该接头序列；当检测到某一r_1i左右两端与接头序列的重叠大于或等于3bp长度时，则将该部分片段确定为接头序列，并进行切除。

在一些可选的实施例中，在得到第一端预处理序列和第二端预处理序列之后，在进行组装之前，检测方法还包括：

删除长度低于第一设定长度的第一预处理读长序列，获得第一端待组装序列；以及删除长度低于第一设定长度的第二预处理读长序列，获得第二端待组装序列。

具体的，在切除接头序列后，基于R1和R2中reads的长度，去除所有长度不足第一设定长度的reads。需要说明的是，当R1中的某reads：r_1a长度低于第一设定长度时，同步删除R1中的r_1a以及R2中与r_1a对应的r_2b。第一设定长度(trim_len)表示预处理单端reads长度的参数，可按照实际需求调整，可调范围为10bp～100bp，bp为一个碱基对。

在组装前删除第一端预处理序列和第二端预处理序列中的单端长度不足第一设定长度的reads，能够减少测序序列中与V基因、J基因、Kde基因和J_C_intron基因无关的测序片段，从而在后续的基因库比对时减小无效基因片段和非目标比对基因片段的干扰，从而减小基因比对工作量并提高基因比对精度。

接下来，基于第一端待组装序列和第二端待组装序列进行组装，获得组装序列。

一种可选的组装方案如下：

获得第二预处理读长序列的反向互补读长序列；根据第一预处理读长序列和反向互补读长序列，确定重叠序列；在重叠序列的长度不低于第二设定长度时，删除反向互补读长序列中的重叠序列，获得待组装读长序列；将第一预处理读长序列与待组装读长序列拼接，获得组装读长序列；基于所有的组装读长序列，获得组装序列。

具体的，将R2中的所有reads：r_2i变换为它的反向互补reads，记为r_2i’，然后比较r_1i和与r_1i对应的r_2i’，确定两者之间的重叠序列并确定重叠序列长度overlap。当overlap≥overlap_len时，去掉r_2i’中的重叠序列，再将r_1i与r_2i’中的剩余序列连接从而得到组装读长序列(assembled)，并将其标记为query_id。其中，overlap_len为第二设定长度，即最小重叠序列长度，其可选取值范围为10bp～40bp。

若r_1i与r_2i’之间的重叠序列长度overlap<overlap_len，则将这一组r_1i和r_2i’分别保存为组装失败序列(assembled_F和assembled_R)，组装失败序列不参与到后续步骤的基因比对。

在将所有的第一预处理读长序列与待组装读长序列拼接后获得组装序列，组装序列中包括多条组装读长序列query_id。

S3：基于组装序列，从基因参考数据库中确定目标比对基因；其中，基因参考数据库包括生殖细胞系中的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；

具体的，本实施例的目的是分析IGK基因中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排情况。依次将每一条query_id序列与生殖细胞系(germline)的V/J/Kde/J_C_intron基因参考序列进行局部比对，以确定组装序列是由哪些：V/J/Kde/J_C_intron基因重组而来，从而确定该组装序列的基因重排情况。

一种可选的比对方案如下：

对于VJ基因重排：

依次将每一条query_id序列与IMGT免疫组库数据IGK的多个V、J基因序列进行比对，找到满足设定比对参数的目标比对基因，提取基因id记为subject_id。

对于V-Kde基因重排和J_C_intron-Kde基因重排：

依次将每一条query_id序列与IGK的J_C_intron库、Kde基因库进行比对，找到满足设定比对参数的目标比对基因，提取基因id记为subject_id。

可选的，设定比对参数包括：组装读长序列中的比对片段与目标比对基因的相似度不低于90％，比对片段的长度取值范围为4至11。上述比对参数能够提高从基因参考数据库中比对得出目标比对基因，即V基因、J基因、Kde基因和J_C_intron基因的速度和精度。

在具体实施时，可以利用blastn工具，输入设定比对参数，在IGKV、IGKJ、J-C_intron以及Kde基因参考数据库中进行比对，若比对成功，则提取目标比对基因id，在blastn工具中的设定比对参数为：1)比对片段与目标比对基因的相似度参数：-perc_identity＝90；2)序列片段的长度-word_size＝4～11，优选11。

通过使用上述设定比对参数进行比对，可在114个IGKV基因、9个IGKJ基因以及Kde基因、J_C_intron基因中找到最佳的目标比对基因。

S4：基于目标比对基因，确定组装序列中的IGK基因重排结果。

在从基因参考数据库中比对得到目标比对基因后，即可利用目标比对基因对组装序列中的序列片段进行注释，从而得到IGK基因的重排结果或重排情况，用于进行后续IGK基因重排的鉴定和分析。

若检测到IGK基因中的VJ基因重排，有必要进行CDR3序列的鉴定。现有的方法定义CDR3区域是通过在V基因3’端保守的第二个半胱氨酸残基到J基因中保守的苯丙氨酸残基的序列片段。然而研究表明，第二个保守的半胱氨酸残基可能不是V基因上的最后一个半胱氨酸，需要一个更加精确的方案来确定CDR3区域的起始位置。

在一些可选的实施例中，若根据query_id序列比对得到的目标比对基因subject_id中仅包含V基因和J基因，则基于目标比对基因，确定组装序列中的IGK基因重排结果还包括对其进行CDR3区域的注释，具体如下：

获得目标J基因中包括苯丙氨酸残基的核苷酸位置，基于核苷酸位置在组装序列中确定终止点；在终止点之前的设定范围内检测组装序列中的半胱氨酸残基，将距终止点最近的半胱氨酸残基的位置点作为起始点；设定范围为终止点至终止点之前的60bp至90bp的组装序列片段；根据起始点和终止点，确定组装序列中的CDR3区域。

具体的，根据比对得到的目标J基因，检测其苯丙氨酸残基“FGXG”所对应的核苷酸位置，确定组装序列中的CDR3区域的终止点；然后在CDR3终止点位置前的60bp～90bp长度范围内搜索半胱氨酸残基，将找到的距离终止点最近的半胱氨酸残基作为CDR3区域的起始点，从而根据起始点和终止点确定出CDR3序列。优选设定范围为终止点之前的75bp长度范围内的组装序列片段。

上述方案根据对比对到的J基因中，检测苯丙氨酸残基“FGXG”所对应的核苷酸位置确定CDR3区域的终止点在序列上的位置，然后在其位置前60bp～90bp的范围内搜索半胱氨酸残基，最后一个半胱氨酸残基作为CDR3区域的起始点。在60bp～90bp的搜索范围内寻找距终止点最近的半胱氨酸残基，能够保证找到的半胱氨酸残基为苯丙氨酸残基之前的最后一个半胱氨酸残基，从而提高CDR3区的确定精度。

另外，目前的基因重排检测工具没有对IGK中的VJ基因重排结果进行相关的免疫组库功能分析，如克隆多样性、多样本间公共克隆分析等。因此有必要提供针对IGK的VJ基因重排鉴定以及免疫组库分析的自动化检测分析方案。

在一些可选的实施例中，若根据query_id序列比对得到的目标比对基因subject_id中仅包含V基因和J基因，则基于目标比对基因，确定组装序列中的IGK基因重排结果还包括对其进行克隆分析，具体如下：

基于目标V基因和目标J基因对组装序列进行聚类分析，获得组装序列中的克隆种类数、克隆序列数以及克隆序列占比。在获得克隆种类数、克隆序列数以及克隆序列占比数据后，可进行公共克隆分析，深入挖掘免疫组库与疾病的关系。

为了更直观的说明VJ基因重排的克隆分析结果，在一个可选的实施例中，结合具体实施案例进行说明：

某测试样本在获得双端测序原始数据后，依次进行去除包括未知核苷酸(N)的reads、去除平均碱基质量低于20的reads、对相似数量>2的reads进行多数投票矫正，以及切除接头序列后进行组装，获得组装序列

首先根据组装读长序列的长度进行统计可视化分析，请参阅图2提供的组装读长序列的长度分布示意图。图2中的纵坐标：Sequence counts表示组装读长序列的数量占比；横坐标：Sequence length表示组装读长序列的序列长度，单位为bp。可图2可知，整个组装序列中存在多个数量峰值，表示该组装序列中可能存在多克隆型。

分别使用每一条组装读长序列进行基因比对，与IGKV、IGKJ、J_C_intron以及Kde基因参考数据库的比对结果示例如表1所示：

表1.一条组装读长序列的比对结果

根据比较得到的目标比对基因，即Subject_id基因，对所有的组装读长序列进行VJ重排的克隆分析，计算整个组装序列的克隆种类数、支持该克隆的序列数以及支持该克隆的序列占比，见表2所示：

表2.VJ重排的克隆分析

克隆编号/top 10	序列数count	序列占比/％
			1	247438	47.6
2	222903	42.9
			3	9194	1.8
4	8730	1.7
			5	2625	0.5
6	2144	0.4
			7	2224	0.4
8	1915	0.4
			9	1402	0.3
10	1392	0.3

从top 10克隆中可看出，第1克隆和第2克隆的序列数量(count)相当，在组装序列中的占比均到达40％以上，可以看出当前测试样本的IGK重排属于多克隆型。

基于同一发明构思，本发明第二方面的实施例提供了一种IGK基因重排的检测装置，请参阅图3，检测装置包括：

获取模块10，用于获得测试样本的双端测序数据；双端测序数据包括第一端测序序列和第二端测序序列；

组装模块20，用于基于第一端测序序列和第二端测序序列进行组装，获得组装序列；

比对模块30，用于基于组装序列，从基因参考数据库中确定目标比对基因；其中，基因参考数据库包括生殖细胞系中的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库，目标比对基因包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；

确定模块40，用于基于目标比对基因，确定组装序列中的IGK基因重排结果。

可选的，第一端测序序列包括多个第一读长序列，第二端测序序列包括多个第二读长序列；

组装模块20用于：

遍历第一读长序列，确定与第一读长序列对应的第一相似读长序列；基于每一组第一读长序列和第一相似读长序列进行多数投票，获得第一端矫正序列；以及遍历第二读长序列，确定与第二读长序列对应的第二相似读长序列；基于每一组第二读长序列和第二相似读长序列进行多数投票，获得第二端矫正序列；

基于第一端矫正序列和第二端矫正序列进行组装，获得组装序列。

可选的，组装模块用于：

基于每一组第一读长序列和第一相似读长序列，确定相似数量；在相似数量大于设定值时，对第一读长序列和第一相似读长序列中的每一位碱基进行多数投票，获得第一矫正读长序列；根据所有的第一矫正读长序列，获得第一端矫正序列；

可选的，组装模块20用于：

切除第一矫正读长序列中的接头序列，获得第一预处理读长序列，并根据所有的第一预处理读长序列获得第一端预处理序列；以及切除第二矫正读长序列中的接头序列，获得第二预处理读长序列，并根据所有的第二预处理读长序列获得第二端预处理序列；

基于第一端预处理序列和第二端预处理序列进行组装，获得组装序列。

可选的，组装模块20用于：

删除长度低于第一设定长度的第一预处理读长序列，获得第一端待组装序列；以及删除长度低于第一设定长度的第二预处理读长序列，获得第二端待组装序列；

基于第一端预处理序列和第二端预处理序列进行组装，获得组装序列，包括：

基于第一端待组装序列和第二端待组装序列进行组装，获得组装序列。

进一步的，组装模块20用于：

获得第二预处理读长序列的反向互补读长序列；

根据第一预处理读长序列和反向互补读长序列，确定重叠序列；

在重叠序列的长度不低于第二设定长度时，删除反向互补读长序列中的重叠序列，获得待组装读长序列；

将第一预处理读长序列与待组装读长序列拼接，获得组装读长序列；

基于所有的组装读长序列，获得组装序列。

可选的，比对模块30用于：

基于设定比对参数，从目标基因参考数据库中确定与每一条组装读长序列对应的目标比对基因；

设定比对参数包括：组装读长序列中的比对片段与目标比对基因的相似度不低于90％，比对片段的长度取值范围为4至11。

可选的，在目标比对基因只包括目标V基因和目标J基因时，确定模块40用于：

获得目标J基因中包括苯丙氨酸残基的核苷酸位置，基于核苷酸位置在组装序列中确定终止点；

在终止点之前的设定范围内检测组装序列中的半胱氨酸残基，将距终止点最近的半胱氨酸残基的位置点作为起始点；设定范围为终止点至终止点之前的60bp至90bp的组装序列片段；

根据起始点和终止点，确定组装序列中的CDR3区域。

基于目标V基因和目标J基因对组装序列进行聚类分析，获得组装序列中的克隆序列数以及克隆序列占比。

基于同一发明构思，本发明第三方面的实施例提供了一种电子设备400，请参与图4，包括处理器420和存储器410，所述存储器410耦接到所述处理器420，所述存储器410存储计算机程序411，当所述计算机程序411由所述处理器420执行时使所述电子设备400执行前述实施例中所述控制方法的步骤。

具体的，电子设备中安装有操作系统以及第三方应用程序。电子设备可以是服务器、台式电脑、平板电脑、笔记本电脑、手机、可穿戴设备、车载终端等电子设备。

基于同一发明构思，本发明可选的实施例中，请参阅图5，提供了一种计算机可读存储介质500，其上存储有计算机程序511，该程序被处理器执行时前述实施例中的所述控制方法的步骤。

为简要描述，装置、电子设备和计算机可读存储介质的实施例部分未提及之处，可参考前述检测方法实施例中的相应内容。

总的来说，本发明实施例提供了一种IGK基因重排的检测方法、装置、电子设备及存储介质，通过基于双端测序原始数据中的第一端测序序列和第二端测序序列组装得到组装序列，将所述组装序列与生殖细胞系的IGKV基因库、IGKJ基因库、Kde基因库和J_C_intron基因库中的基因参考序列进行对比，从所述基因库中确定出目标比对基因，包括目标V基因、目标J基因、目标Kde基因和目标J_C_intron基因中的至少一种；基于目标比对基因确定所述组装序列中的IGK基因重排结果。上述方法提供了一种对IGK基因中的VJ基因重排、V-Kde基因重排和J_C_intron-Kde基因重排进行自动化流程检测的方案，适用于对淋巴瘤的微小残留病变与复发监测、免疫组库测序等需求下游分析鉴定。

需要说明的是，本文中出现的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系；单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种IGK基因重排的检测方法，其特征在于，所述检测方法包括：

基于所述第一端测序序列和所述第二端测序序列进行组装，获得组装序列；

2.如权利要求1所述的检测方法，其特征在于，所述第一端测序序列包括多个第一读长序列，所述第二端测序序列包括多个第二读长序列；

所述基于所述第一端测序序列和第二端测序序列进行组装，获得组装序列，包括：

3.如权利要求2所述的检测方法，其特征在于，所述基于每一组所述第一读长序列和所述第一相似读长序列进行多数投票，获得第一端矫正序列，包括：

4.如权利要求3所述的检测方法，其特征在于，在获得所述第一端矫正序列和所述第二端矫正序列之后，所述检测方法还包括：

5.如权利要求4所述的检测方法，其特征在于，在获得所述第一端预处理序列和所述第二端预处理序列之后，所述检测方法还包括：

6.如权利要求5所述的检测方法，其特征在于，所述第一设定长度的取值范围为10bp至100bp。

7.如权利要求5所述的检测方法，其特征在于，所述基于所述第一端待组装序列和所述第二端待组装序列进行组装，获得所述组装序列，包括：

获得所述第二预处理读长序列的反向互补读长序列；

基于所有的所述组装读长序列，获得所述组装序列。

8.如权利要求1所述的检测方法，其特征在于，所述基于所述组装序列，从目标基因参考数据库中确定目标比对基因，包括：

9.如权利要求1所述的检测方法，其特征在于，在所述目标比对基因只包括所述目标V基因和所述目标J基因时，所述基于所述目标比对基因，确定所述组装序列中的IGK基因重排结果，包括：

10.如权利要求1所述的检测方法，其特征在于，在所述目标比对基因只包括所述目标V基因和所述目标J基因时，所述基于所述目标比对基因，确定所述组装序列中的IGK基因重排结果，包括：

11.一种IGK基因重排的检测装置，其特征在于，所述检测装置包括：

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行权利要求1-10中任一项所述检测方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-10中任一项所述检测方法的步骤。