CN113903398B

CN113903398B - 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质

Info

Publication number: CN113903398B
Application number: CN202111053742.7A
Authority: CN
Inventors: 邵阳; 彭俊杰; 李雅琪; 吴雪; 刘睿; 包华; 吴舒雨; 鲍海蓉; 唐皖湘夫; 常双; 杨珊珊
Original assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Current assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2025-06-06
Anticipated expiration: 2041-09-08
Also published as: CN113903398A

Abstract

本发明提供了肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质，本发明通过对高通量测序结果进行结直肠癌健康人差异DNA片段高分辨率长度分布，读段5端断点处序列读段读段占比和1MB窗口拷贝数变化分析，利用梯度提升机，随机森林和深度网络学习分别进行训练建模，最后通过广义线性模型构建多特征多算法整合模型，实现了对结直肠癌无创精准诊断的目的。

Description

肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质

技术领域

本发明涉及一种结直肠癌(Colorectal Cancer，CRC)早筛，属于分子生物医学技术领域。

背景技术

结直肠癌是一种常见的恶性肿瘤，据《中国体检人群结直肠癌及癌前病变白皮书》，中国人群结直肠癌的五年生存率在I，II，III，IV期分别为90.1％，72.6％，53.8％和10.4％；2009-2015年间局部转移癌症患者五年生存率89％，远高于远端转移远端转移癌患者21％。肿瘤早发现和早诊断对于提升结直肠癌患者的生存率至关重要，同时也能间照医疗支出负担。

结直肠镜检查是结直肠癌诊断的“金标准”，检出率高达95％，但肠镜属于侵入性筛查，过程较为痛苦，对病人体质要求较高，且存在手术风险和并发症风险，因此患者依从性低；同时，我国肠镜检查资源不足等局限性，导致筛查渗透率较低，短期内肠镜检查作为筛查手段无法实现大规模推广，迫切需要非侵入性检测手段的支持和补充。

我国主要的非侵入式检查方式以粪便潜血检测为主，主要包括愈创木脂粪便隐血试验(gFOBT)和免疫化学法粪便隐血试验(FIT)，灵敏度高且标本取材简便易保存，但其定价普遍偏高，未纳入医保。因此我国迫切需要开发一种适用于广泛人群的有效、经济、实用的筛查手段。

发明内容

本发明提供了一种对血浆样本cfDNA进行WGS测序，通过对高通量测序结果进行结直肠癌健康人差异DNA片段高分辨率长度分布(high resolution fragmentation sizedistribution)，读段5端断点处序列读段读段占比(motifbreak point 8mer)和1MB窗口拷贝数变化(1Mb-bin copy number variant)分析，利用梯度提升机(GBM)，随机森林(RandomForest)和深度网络学习(Deep learning)分别进行训练建模，最后通过广义线性模型(GLM)构建多特征多算法整合模型，实现了对结直肠癌无创精准诊断的目的。

一种肠癌早筛模型的构建方法，包括如下步骤：

步骤1，对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；

步骤2，将读段数据结果比对至参考基因组，获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量，作为第一特征值；

步骤3，将读段数据结果比对至参考基因组，得到读段的5’端在参考基因组上的位置；获得所述的位置处的上下游各m个bp碱基的序列数据，作为碱基片段集合；以得到的各个碱基片段在全部片段中的所占比例作为第二特征值；

步骤4，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的拷贝数数据，作为第三特征值；

步骤5，以第一、第二和第三特征值共同作为初始特征值，筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值，作为模型特征向量；

步骤6，将阳性组和对照组的样本的模型特征向量输入模型，并以患肠癌概率作为模型输出值，对模型进行训练，获得早筛模型。

所述的步骤2中包括：

步骤2-1，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量；

步骤2-2，分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量；

步骤2-3，将步骤2-1和2-2中获得的数据共同作为第一特征值。

所述的短读段是指长度40-80bp，所述的超长读段数量是200-300bp；全部读段是指长度在40-300bp范围。

所述的步骤2-1中窗口的大小范围是2-7Mb。

所述的步骤2-2中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围。

所述的读段数量经过了标准化处理。

所述的m是2-5之间的任意整数。

所述的步骤5中，步骤包括：将第一、第二和第三特征值分别作为梯度提升算法模型、随机森林模型以及深度网络学习模型的输入值，以是否患有肠癌为输出值对样本进行训练，分别得到在各个模型存在显著性差异的特征向量。

所述的步骤6中，步骤包括：以显著性差异的特征向量作为分类器模型的输入值，以患有肠癌的概率作为输出值，并采用阳性组和对照组的样本数据对模型进行训练后，得到早筛模型。

所述的分类器模型为线性模型，模型中包含的变量分别为采用第一、第二、第三特征值当中的存在显著性差异的特征向量分别输入至步骤5中训练得到的梯度提升算法模型、随机森林模型以及深度网络学习模型而得到。

一种肠癌早筛检测装置，包括：

测序模块，用于对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；对比模块，用于将读段数据结果比对至参考基因组；

第一特征值获取模块，用于获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量，作为第一特征值；

第二特征值获取模块，用于获得读段的5’端在参考基因组上的位置；获得所述的位置处的上下游各m个bp碱基的序列数据，作为碱基片段集合；以得到的各个碱基片段在全部片段中的所占比例作为第二特征值；

第三特征值获取模块，用于将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的拷贝数数据，作为第三特征值；

筛选模块，用于以第一、第二和第三特征值共同作为初始特征值，筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值，作为模型特征向量；

模型构建模块，将阳性组和对照组的样本的模型特征向量输入模型，并以患肠癌概率作为模型输出值，对模型进行训练，获得早筛模型。

所述的第一特征值获取模块中包括：

第一读段数量统计模块，用于将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量；

第二读段数量统计模块，用于分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量；

合并模块，用于将第一读段数量统计模块和第二读段数量统计模块中获得的数据共同作为第一特征值。

一种计算机可读取介质，其记载有可以运行上述的肠癌早筛模型的构建方法的计算机程序。

上述的模型还可以将其中的子模型单独使用：

一种肠癌早筛模型的构建方法，包括如下步骤：

步骤2，将读段数据结果比对至参考基因组，获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量，作为初始特征值；

步骤3，筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值，作为模型特征向量；

步骤4，将阳性组和对照组的样本的模型特征向量输入模型，并以患肠癌概率作为模型输出值，对模型进行训练，获得早筛模型。

所述的步骤2中包括：

步骤2-3，将步骤2-1和2-2中获得的数据共同作为初始特征值。

所述的步骤3包括：将初始特征值作为模型的输入值，以是否患有肠癌为输出值对样本进行分类，根据各个特征向量的贡献值排序，分别得到在各个模型存在显著性差异的特征向量；

所述的模型选自梯度提升算法模型、随机森林模型或者深度网络学习模型。

一种肠癌早筛模型的构建方法，包括如下步骤：

步骤2，将读段数据结果比对至参考基因组，得到读段的5’端在参考基因组上的位置；获得所述的位置处的上下游各m个bp碱基的序列数据，作为碱基片段集合；以得到的各个碱基片段在全部片段中的所占比例作为初始特征值；

一种肠癌早筛模型的构建方法，包括如下步骤：

步骤2，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的拷贝数数据，作为初始特征值；

有益效果

对115例健康人群和195例肠癌/进展期肠腺瘤患者的WGScfDNA读段长度分布，断点处序列占比和区域拷贝数变化进行统计，分别利用三种不同的训练学习算法构建模型，并对所有模型进行二次集合训练，提高模型对健康与癌症组的预测性能。本发明首次基于血浆cfDNA高通量低深度测序提供了多分子特征多训练算法二次整合诊断模型，该模型不仅能够诊断早期肠癌还能够进展期肠腺瘤，具有无创检测，通量低，检测特异性和敏感性高的有点。

附图说明

图1是模型构建过程示意图；

图2是二次集合模型构建过程示意图；

图3是癌患组与健康组间前50高分辨率DNA碎片长度占比分布特征的差异热图；

图4是癌患组与健康组间前50读段5‘端断点处序列占比特征的差异热图

图5是癌患组与健康组间前501Mb窗口拷贝数变化特征的差异热图；

图6是在验证集和测试集上的高分辨率DNA碎片长度占比分布特征不同训练算法分类器的预测AUC曲线；

图7是在验证集和测试集上的读段5‘端断点处序列占比特征不同训练算法分类器的预测AUC曲线；

图8是在验证集和测试集上的拷贝数变化特征不同训练算法分类器的预测AUC曲线；

图9是在验证集上的分类器的不同特征的二次集合训练分类器预测AUC曲线；

图10是在验证集上的分类器的不同特征的二次集合训练分类器预测结果图；

图11是在验证集和测试集上的全部模型集合后分类器的不同组预测AUC曲线；

图12是在验证集和测试集上的全部模型集合后分类器的不同组预测AUC曲线；

图13是在验证集和测试集上的全部模型集合后分类器的预测结果图；

图14是在验证集上的全部模型集合后分类器的预测结果图；

图15是在测试集上的全部模型集合后分类器的预测结果图；

具体实施方式

本发明中的计算方法详述如下：

本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定，可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。

本发明中的模型构建过程采用的数据集情况如下：

血浆cfDNA样本的提取和测序方法

采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本，及时离心分离血浆(2小时内)，转运至实验室后，血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后，进行WGS～2乘测序。在获得了下机数据之后，将数据比对至人类参考基因组上，获得相应的读段的碱基数据信息。

数据处理

本发明中的标志数据，主要是利用三种分子特征：

1.高分辨率DNA片段大小分布(High Resolution Fragmentation SizeDistribution，HRFSD)对于DNA片段大小分布，其反映的是cfDNA读段的长度大小的分布特征。利用高分辨率DNA片段大小分布(high resolution fragmentation sizedistribution)进行机器学习建立预测模型，从而区分非肝癌患者(健康人)与肠癌患者(进展期肠腺瘤CRA和结直肠癌CRC)。对于DNA片段大小分布，其反映的是cfDNA读段的长度大小的分布特征。通过比对115例健康人群和195例肠癌/进展期肠腺瘤患者的cfDNA读段的长度，发现40-80bp和200-300bp间的片段数量在两组间存在差异，可以作为区分特征。

cfDNA读段长度数据是通过如下方法获取得到的：在比对好的bam当中，记录了每一条读段的质量，长度和比对位置信息，人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California，Santa Cruz，UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度，切割成572个窗口，分别统计每一个窗口中的全部读段数量(40-300bp)，短读段数量(40-80bp)和超长读段数量(200-300bp)。根据所有窗口中各种读段数量统计结果，分别对每种读段数量进行标准化换算，即标准化值＝(原始值-平均值)/标准差。由此得到了572组不同长度的读段数量的数集。

同时，为获得高分辨率读段结果，以人类参考基因组各染色体长短臂41个区域作为窗口，如下所示：

chr1_p	chr4_q	chr8_p	chr11_q	chr16_q	chr20_p
						chr1_q	chr5_p	chr8_q	chr12_p	chr17_p	chr20_q
chr2_9	chr5_q	chr9_p	chr12_q	chr17_q	chr21_q
						chr2_q	chr6_p	chr9_q	chr13_q	chr18_p	chr22_q
chr3_p	chr6_q	chr10_p	chr14_q	chr18_q	chrX_p
						chr3_q	chr7_p	chr10_q	chr15_q	chr19_p	chrX_q
chr4_p	chr7_q	chr11_p	chr16_p	chr19_q

将40-300bp的片段，以10bp递增，划分27个长度梯度(例，chr1的1q臂上40-49bp，50-59bp......)，对每个长度梯度在各长短臂窗口内片段数量进行统计，并进行标准化换算，从而获得高分辨率DNA片段大小分布结果共计2823个特征结果(2823＝572个全部读段标准化结果+572个短读段标准化结果+572个超长独段标准化结果+41*27个长度梯度标准化结果)。

2.读段5‘端断点处序列读段数量占比(Motif Breakpoint 8Mer，MTBK)

人类参考基因组是DNA双螺旋结构，依靠碱基互补配对氢离键链接；在正常衰老和癌症进展过程中，细胞周五环境的酸碱度发生变化，从而破坏了碱基互补氢键，发生断裂；由于断裂处的碱基序列不同，包含不同断点处序列的信息的序列占比也会不同。收集方法：比对后的bam中，记录了每一条读段的基本信息和比对到的位置，确认每一条读段的5‘端所在人类参考基因组序列坐标的左右各4bp序列，统计每种断点处序列(共计4**8＝65536种)的读段数量，从而计算出65536种断点处序列读段占比，例AAAAAAAA读段占比＝AAAAAAAA读段数量/所有断点处序列读段总数。

3.1Mb窗口拷贝数变化(1Mb-Bin Copy Number Variation，CNV)

拷贝数变化与个体癌症有显高度相关性，尽管已经可以通过检测部分癌症相关基因或特定基因组区间的拷贝数数变化从而进行区分，但仍有其他稀有或未知基因或区间可以提供潜在拷贝数变化信息。收集方法：首先收集30例健康人的WGS数据，将参考基因1-22号染色体以1Mb的长度无重叠划分窗口，利用bedtools coverage对每个样本计算各个窗口内的读段深度，并根据各自窗口的GC含量和平均比对能力记录(UCSC BigWig文件)进行矫正，取每个窗口中的30位健康人的中位深度作为代表，获得2475个窗口读段深度的群体对照基线；对每个待测样本，同样获得2475个窗口个体读段深度信息，利用隐马尔可夫模型(Hidden Markov Model，HMM)和每个窗口群体对照基线深度，构建每个窗口的拷贝数变化对数，即log2(待测样本矫正均一化后深度/群体基线矫正均一化后深度)，从而获得每个待测样本的拷贝数变化信息。

通过上述的数据获取，分别能够获得这三类数据的初始数据向量。接下来，再设计相应的计算方法：

本发明中的标志数据，主要是利用三种单特征机器学习算法：

1.梯度提升算法(Gradient Boosting Machine，GBM)

梯度提升算法是机器学习中常见的一类算法，其基本原理是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的若分类起以累加的形式结合到现有的模型中从而获得最优模型，该模型具有训练效果好，不易过拟合等优点。为防止GBM在学习过程中过度或欠拟合，设定GBM参数如下：ntrees＝200，max_depth＝9，learning_rate＝0.01，subample＝0.8.Crossvalidation＝10。

2.随机森林(Random Forest，RF)

随机森林是一个强大的分类和回归工具。当提供一组数据集合，随机森林可以随机抽取部分信息产生一组帮助分类或回归的决策树林，做节点分裂属性，不断重复随机抽取，直至不能再分裂；最后结合所有分裂属性结果，获得最终预测结果。为防止RF在学习过程中过度或欠拟合，设定RF参数如下：ntrees＝200，max_depth＝9，Crossvalidation＝10。

3.深度网络学习算法(Deep Learning，DL)

深度学习基于多层前馈人工神经网络，该神经网络使用反向传播进行了随机梯度下降的训练。该网络可以包含大量隐藏层，这些隐藏层由具有双曲正切，矫正和最大功率激活功能的神经元组成。诸如自适应学习率，速率退火，动量训练，辍学，L1或L2正则化，检查点和网格搜索等高级功能可实现较高的预测准确性。在学习训练的时候，每个计算节点都使用多线程(异步)在其本地数据上训练全局模型参数的副本，并通过网络上的模型平均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型，也称为深层神经网络(DNN)或多层感知器(MLP)，是深层神经网络的最常见类型。主要原理是将多输入和多输出的多个感知机通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输人层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系，可以尽可能的逼近现实的关联关系。为防止DL学习过程中过度或欠你和，设定DL参数如下：epoch是＝300，hidden＝{100，100，100}，input_dropout_ratios＝0.05，rho＝0.95，mini_batch_size＝10，Crossvalidation＝10。

在获得115例健康人群和195例肠癌/进展期肠腺瘤患者的上述的三类初始数据信息后，将高分辨率DNA片段大小分布统计结果作为输入值(每个样本的输入向量中包含有2823个读段占比数值构成的特征值)，分别通过三种分类模型对待测样本与正常样本进行分类；同样地，通过收集患者和健康人的DNA片段5‘端断点序列读段数量占比信息后，以DNA片段5‘末端断点处序列占(65536种)比作为输入值，通过三种分类模型模型法判断待测样本与正常样本进行分类；同样地，将2475个窗口的拷贝数信息作为输入向量通过三种分类模型进行样本分类。通过上述的计算过程，分别通过三类数据代入三种模型中进行分类，共得到3×3＝9个模型计算结果，在每个计算结果中，可以获得每个特征向量的对于分类结果的贡献值，收集每种分子特征在不同的训练算法下的贡献值不为0的特征列后，最终获得HRFSD差异显著并集1368列，MTBK差异显著并集958列，CNV差异显著并集1073列。将每种分子特征贡献值排前50特征列进行差异化分析，如heatmap所示，每种特征的前50个特整列在癌症健康两组均有差异信号。

对于MTBK数据集，在三种模型下计算得到的贡献值前50的序列以及贡献值如下：

GMB模型数据：

RF模型数据：

DL模型数据：

为进一步提高分类器预测性能，对以上9种训练模型结果进行二次集合训练(stacking)。Stacking是一种集成学习技术，通过对多个底层弱分类器(1^st-level basemodel)的再次进行元学习(2^nd-level meta-learning)，收集每个底层分类器的特点，找到最优整合方式，从而提高模型预测性能。本专利Stacking使用的训练算法为广义线性模型(Generalized linear Model，GLM)，通过联结函数建立响应变量的数学期望值与线性组合的预测变量之间的关系，将9种训练模型转化为最终线性方程：ALL Stacked＝Intercept+A*HRFSD_GMB+B*HRFSD_RF+C*HRFSD_DL+D*MTBK_GBM+E*MTBK_RF+F*MTBK_DL+G*CNV_GBM+H*CNV_RF+I*CNV_DL，其中，Intercept、A-I都是线性方程参数。HRFSD_GMB等都是指模型在获得输入数据后得到的输出值(患病概率)。

具体系数如下：

名称	对应系数
		Intercept	-0.95688
A(HRFSD_GBM)	0.004297
		B(HRFSD_RF)	0.139366
C(HRFSD_DL)	0.733057
		D(MTBK_GBM)	0.788211
E(MTBK_RF)	-0.08808
		F(MTBK_DL)	0.944454
G(CNV_GBM)	0.337852
		H(CNV_RF)	-0.02318
I(CNV_DL)	0.612503

在不同特征和训练算法的输入向量的情况下，模型预测性能如下所示：

其中，HRFSD Stacked模型是指由HRFSD GBM模型、HRFSD RF模型、HRFSD DL模型构成的线性方程模型。MTBK Stacked模型是指由MTBKGBM模型、MTBKDL模型、MTBKDL模型构成的线性方程模型。CNV Stacked模型是指由CNV GBM模型、CNV RF模型、CNVDL模型构成的线性方程模型。结果如图以及下表所示：

其中，HRFSD和MTBK的Stacked模型是指由HRFSD的三种模型以及MTBK的三种模型构成的线性模型；HRFSD和CNV的Stacked模型是指由HRFSD的三种模型以及CNV的三种模型构成的线性模型；MTBK和CNV的Stacked模型是指由MTBK的三种模型以及CNV的三种模型构成的线性模型；

每种特征在不同的训练算法下均有一定的预测效果，二次集合训练单一特征对该特征的预测效果均有提升。以上9种模型进行二次集合训练，分类器预测效果最佳，AUC最高可达0.988。同时发现，集合模型可有效区分健康人与肠癌，健康人与进展期肠腺瘤，但因肠癌和进展期肠腺瘤分子特征相似，在较难区分(AUC＝0.594)。

以上最终集合模型得到的结果如下表所示：

从预测结果来看，多特征集合分类器结果可修正单一特征集合分类器的误判，在验证集和测试集中特异性94.83％下，敏感性达到97.44％。

序列表

<110> 南京世和基因生物技术股份有限公司

南京世和医疗器械有限公司

<120> 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质

<130> 无

<160> 150

<170> SIPOSequenceListing 1.0

<210> 1

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

ccccattg 8

<210> 2

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

cttaatag 8

<210> 3

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gtcccagt 8

<210> 4

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

accccgtg 8

<210> 5

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

ccgatttg 8

<210> 6

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tgcggtgc 8

<210> 7

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

tacggtga 8

<210> 8

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gcgggttg 8

<210> 9

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

atcgcgtg 8

<210> 10

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gcgattcg 8

<210> 11

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

tgaaaccg 8

<210> 12

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

cccattca 8

<210> 13

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gttcgttt 8

<210> 14

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

ccctgtgt 8

<210> 15

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

gccgatcc 8

<210> 16

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gcacagtt 8

<210> 17

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

atagtgcg 8

<210> 18

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

cccagtac 8

<210> 19

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

gcccaatg 8

<210> 20

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gggtttca 8

<210> 21

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

ccctcgaa 8

<210> 22

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

gcctagtc 8

<210> 23

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gattctca 8

<210> 24

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

cggccgta 8

<210> 25

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

aattcgct 8

<210> 26

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

gaatggat 8

<210> 27

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

acagtgtt 8

<210> 28

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

tctcacgt 8

<210> 29

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

cttggaaa 8

<210> 30

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

atcacgct 8

<210> 31

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

aacttcgg 8

<210> 32

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

ctttcgtg 8

<210> 33

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

attaatgt 8

<210> 34

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

gctgatct 8

<210> 35

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

gtaggacc 8

<210> 36

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

cggtacgc 8

<210> 37

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

tcaattcg 8

<210> 38

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

ccgccgta 8

<210> 39

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

catagaaa 8

<210> 40

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

gcgtacaa 8

<210> 41

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

aggcataa 8

<210> 42

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

gcagcgaa 8

<210> 43

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

caagcgta 8

<210> 44

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

cacgacgc 8

<210> 45

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

acaagaag 8

<210> 46

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

acccggct 8

<210> 47

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

ttgtatac 8

<210> 48

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

gcgcgaaa 8

<210> 49

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

tatagccg 8

<210> 50

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

tcacaccc 8

<210> 51

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

atgaattc 8

<210> 52

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

agtactag 8

<210> 53

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

cattctct 8

<210> 54

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

agctgaac 8

<210> 55

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

gagactcc 8

<210> 56

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

cgcggtgt 8

<210> 57

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

cttaatat 8

<210> 58

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

gttaatga 8

<210> 59

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

tctaatga 8

<210> 60

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

tttaatta 8

<210> 61

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

cgcagcag 8

<210> 62

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

tataatcg 8

<210> 63

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

ttttataa 8

<210> 64

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

gcccatta 8

<210> 65

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

atttgtaa 8

<210> 66

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

catttagg 8

<210> 67

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

aacagcac 8

<210> 68

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

ttcccagc 8

<210> 69

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 69

atgaatac 8

<210> 70

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 70

tacttccg 8

<210> 71

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 71

accactgc 8

<210> 72

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 72

agaagcag 8

<210> 73

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 73

atcggcag 8

<210> 74

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 74

cgtactca 8

<210> 75

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 75

gcctgcac 8

<210> 76

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 76

agtgctct 8

<210> 77

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 77

cccactac 8

<210> 78

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 78

tctgatct 8

<210> 79

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 79

ggagcgta 8

<210> 80

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 80

gaggcgtc 8

<210> 81

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 81

ttgagcaa 8

<210> 82

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 82

cataatgt 8

<210> 83

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 83

cccagcac 8

<210> 84

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 84

ttgggcag 8

<210> 85

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 85

aaaagccg 8

<210> 86

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 86

aacggtgc 8

<210> 87

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 87

cggaatct 8

<210> 88

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 88

ttggcgta 8

<210> 89

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 89

gcttatgg 8

<210> 90

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 90

gggtcaga 8

<210> 91

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 91

ggcaatga 8

<210> 92

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 92

cccccgta 8

<210> 93

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 93

tgcccgtg 8

<210> 94

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 94

ataagtat 8

<210> 95

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 95

ttcagcac 8

<210> 96

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 96

tccggcaa 8

<210> 97

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 97

cattgcag 8

<210> 98

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 98

tagagcac 8

<210> 99

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 99

tctagtaa 8

<210> 100

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 100

acaaattc 8

<210> 101

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 101

cacggtga 8

<210> 102

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 102

tcggacgt 8

<210> 103

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 103

ttcggtgt 8

<210> 104

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 104

tttcgtgg 8

<210> 105

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 105

attcgttc 8

<210> 106

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 106

acgcacca 8

<210> 107

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 107

ccccgtat 8

<210> 108

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 108

agcggtgc 8

<210> 109

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 109

ggcggtac 8

<210> 110

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 110

ttcaacgc 8

<210> 111

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 111

gccggtcg 8

<210> 112

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 112

actcgacc 8

<210> 113

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 113

ctcacgca 8

<210> 114

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 114

cctagtaa 8

<210> 115

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 115

atggatcg 8

<210> 116

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 116

ccgaatcc 8

<210> 117

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 117

cggaacga 8

<210> 118

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 118

tccgttct 8

<210> 119

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 119

aggtacgg 8

<210> 120

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 120

tcgcggga 8

<210> 121

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 121

cggcgtgc 8

<210> 122

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 122

acgtatac 8

<210> 123

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 123

ccccgaac 8

<210> 124

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 124

acctggag 8

<210> 125

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 125

tggaggac 8

<210> 126

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 126

gaccaaag 8

<210> 127

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 127

ccctaagt 8

<210> 128

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 128

atcggtag 8

<210> 129

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 129

accattcc 8

<210> 130

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 130

cccggatt 8

<210> 131

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 131

tcaggact 8

<210> 132

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 132

acggatcg 8

<210> 133

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 133

atcggtcg 8

<210> 134

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 134

tcctcggg 8

<210> 135

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 135

tgtcgtag 8

<210> 136

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 136

acgggcgg 8

<210> 137

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 137

caagcgaa 8

<210> 138

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 138

gcccgtgt 8

<210> 139

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 139

ctatatca 8

<210> 140

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 140

aggagttt 8

<210> 141

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 141

cgctgtgt 8

<210> 142

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 142

cccgatgt 8

<210> 143

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 143

agccgtgc 8

<210> 144

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 144

atatacgg 8

<210> 145

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 145

caaggtga 8

<210> 146

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 146

ttctagtt 8

<210> 147

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 147

actacgga 8

<210> 148

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 148

cacgggac 8

<210> 149

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 149

gcgtgata 8

<210> 150

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 150

ttagatca 8

Claims

1.一种肠癌早筛模型的构建方法，其特征在于，包括如下步骤：

步骤5，以第一、第二和第三特征值共同作为初始特征值，筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征向量，作为模型特征向量；

步骤6，将阳性组和对照组的样本的显著性差异的特征向量作为分类器模型的输入值，并以患肠癌概率作为模型输出值，对模型进行训练，获得早筛模型；所述的分类器模型为线性模型，模型中包含的变量分别为采用第一、第二、第三特征值当中的存在显著性差异的特征向量分别输入至步骤5中训练得到的梯度提升算法模型、随机森林模型以及深度网络学习模型而得到，并且分类器模型对9种训练模型结果使用广义线性模型进行二次集合训练，将9种训练模型转化为最终线性方程；

所述的步骤2中包括：步骤2-1，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量；

步骤2-2，分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量；所述的长臂和短臂是指：chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chrX_p、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chrX_q、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q；

步骤2-3，将步骤2-1和2-2中获得的数据共同作为第一特征值；

所述的短读段是指长度40-80bp，所述的超长读段数量是200-300bp；全部读段是指长度在40-300bp范围；

所述的步骤2-1中窗口的大小范围是5Mb；

所述的步骤2-2中不同长度梯度区间是指在40-300bp范围内以10bp步长递增而得到的不同长度梯度范围；

m是4。

2.根据权利要求1所述的肠癌早筛模型的构建方法，其特征在于，所述的读段数量经过了标准化处理。