CN111370055B - 内含子保留预测模型建立方法及其预测方法 - Google Patents
内含子保留预测模型建立方法及其预测方法 Download PDFInfo
- Publication number
- CN111370055B CN111370055B CN202010146731.2A CN202010146731A CN111370055B CN 111370055 B CN111370055 B CN 111370055B CN 202010146731 A CN202010146731 A CN 202010146731A CN 111370055 B CN111370055 B CN 111370055B
- Authority
- CN
- China
- Prior art keywords
- intron
- intron retention
- prediction model
- sequence
- splice site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种内含子保留预测模型建立方法,包括收集内含子保留相关的模拟数据和真实数据;定义基因组中所有独立内含子集合并作为标准模板;获取得到的模拟数据中所设定的内含子序列读数分布模式图片数据集并处理得到处理后的数据集;将处理后的数据集按照设定比例划分为训练集和测试集;采用训练集训练神经网络模型得到最终建立的神经网络内含子保留预测模型。本发明还公开了包括所述内含子保留预测模型建立方法的预测方法。本发明能够基于内含子保留读数分布模式对内含子进行可视化以及预测,而且可靠性高,准确性好。
Description
技术领域
本发明具体设计一种内含子保留预测模型建立方法及其预测方法。
背景技术
内含子保留是可变剪接的一种,是指前体mRNA中的内含子没有被剪接出来而保留在成熟mRNA中。内含子保留以前被认为是错误剪接的结果,得到的关注较少。最近有许多研究表明:内含子保留与基因表达调控和复杂疾病(如阿尔茨海默病)相关;并且随着高通量测序技术的发展,目前已经有许多可用于内含子保留检测的方法提出,以iREAD和IRFinder较为突出。其中iREAD通过假设内含子保留的读数是均匀分布的,计算熵值来检测内含子保留,相应的过滤指标较为严格。IRFinder则通过计算IR-ratio指示内含子出现在转录本中的比例来检测内含子保留。
尽管上述的方法已经成功地应用到了真实环境中,但是,根据序列特征来进行分析,或多或少会受限于内含子保留可能引起的偏差而导致方法鲁棒性不足,从而使得目前的方法可靠性不高,制约了相关技术的发展。
发明内容
本发明的目的之一在于提供一种可靠性高且准确性好的内含子保留预测模型建立方法。
本发明的目的之二在于提供一种包括了所述内含子保留预测模型建立方法的预测方法。
本发明提供的这种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;
S2.定义基因组中所有独立内含子集合并作为标准模板;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型。
所述的内含子保留预测模型建立方法,还包括如下步骤:
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数;
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价。
步骤S1所述的收集内含子保留相关的模拟数据和真实数据,具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基。
步骤S2所述的定义基因组中所有独立内含子集合并作为标准模板,具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster。
步骤A所述的提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子。
步骤S3所述的获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集,具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集。
步骤S4所述的将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集,具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值且连续读数大于第三设定值的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例将数据集划分为训练集和测试集;X2为正整数。
步骤S5所述的神经网络模型,具体为VGG16网络结构模型。
步骤S5所述的采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型,具体为采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代。
步骤S6所述的在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数,具体为在步骤S4得到的测试集上计算神经网络内含子保留预测模型的AUC值。
步骤S7所述的获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集,具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test。
步骤S11所述的根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值,具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值。
步骤S12所述的根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价,具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
本发明还提供了一种包括上述内含子保留预测模型建立方法的预测方法,具体还包括如下步骤:
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。
本发明提供的这种内含子保留预测模型建立方法及其预测方法,基于内含子保留读数分布模式的内含子保留深度学习预测方法能更通用且易解释地预测内含子保留;基于内含子保留读数分布模式,同时结合深度学习模型构建以及迁移学习应用,迁移了大型图像分类任务的知识结构,完成并改进了内含子保留预测任务的学习效果;同时还在没有金标准的真实数据集上进行了预测效果评价,提出对预测内含子保留序列的5’和3’端序列计算平均剪接位点强度来衡量整体预测效果优劣;因此,本发明方法能够基于内含子保留读数分布模式对内含子进行可视化以及预测,而且可靠性高,准确性好。
附图说明
图1为本发明的内含子保留预测模型建立方法的方法流程示意图。
图2为本发明的内含子保留读数分布模式可视化结果示意图。
图3为本发明的深度学习模型VGG16结构示意图。
图4为本发明的预测方法流程示意图。
具体实施方式
如图1所示为本发明的内含子保留预测模型建立方法的方法流程示意图:本发明提供的这种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;
S2.定义基因组中所有独立内含子集合并作为标准模板;本发明具体可以应用于小鼠,因此所述的基因组可以为小鼠基因组;具体采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
其中,提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.由于每个内含子长度不定,且差异极大,因此分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,单段序列的可视化图像原始纵长621像素,横长1150像素,因此裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;可视化结果如图2所示;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值(比如10)、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值(比如0.3)且连续读数大于第三设定值(比如1)的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2(比如5000)个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例(比如7:3)将数据集划分为训练集和测试集;X2为正整数。
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型;在具体实施时,预测模型优选为VGG16模型;且在选用VGG16为预测模型时,可以采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型(如图3所示)以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数(优选为AUC值);
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并等操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价;具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
以下对本发明方法进行验证:
在模拟数据SIMU30和真实数据集APP上对本发明进行评价,同时与本发明相比较的工具有iREAD和IRFinder。
1)SIMU30模拟数据集实验分析
对于SIMU30模拟数据的3000个测试集样本,本发明在其上的预测Accuracy达到0.925,AUC达到0.975;
2)APP真实数据集实验分析
由于真实数据缺乏金标准,一方面只能以其他方法的预测标签为真实标签,测试本发明VGG16模型的AUC与其他方法的差距;另一方面可以自定义其他的评价指标,来验证本发明的有效性。AUC评价方面,本发明VGG16模型在预测真实数据图片测试集real_test后,与iREAD和IRFinder的比较见表1。real_test共68326个样本,在以iREAD为金标准时,正样本数为2816,负样本数为65510,此时本发明VGG16模型的AUC优于IRFinder。在以IRFinder为金标准时,正样本数为19044,负样本数为49282,此时本发明也优于iREAD。
表1本发明与iREAD和IRFinder的AUC评价结果示意表
另外,本发明还定义了5’端和3’端剪接位点强度来衡量VGG16模型预测效果,平均剪接位点强度越低,模型整体预测效果更好。平均剪接位点强度评价结果见表2。
表2本发明与iREAD和IRFinder的平均剪接位点强度评价结果示意表
从表2中结果来看,虽然本发明的结果在平均剪接位点强度方面略差于IRFinder和iREAD,但是注意到,随着参与计算平均剪接位点强度的内含子数增加,IRFinder和iREAD的平均剪接位点强度是随之增加的,而本发明是降低的。由此反映了本发明设计的VGG16模型在鲁棒性方面优于IRFinder和iREAD。
如图4所示为本发明的预测方法流程示意图:本发明提供的这种包括上述内含子保留预测模型建立方法的预测方法,具体包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;
S2.定义基因组中所有独立内含子集合并作为标准模板;具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
其中,提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.由于每个内含子长度不定,且差异极大,因此分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,单段序列的可视化图像原始纵长621像素,横长1150像素,因此裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;可视化结果如图2所示;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值(比如10)、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值(比如0.3)且连续读数大于第三设定值(比如1)的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2(比如5000)个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例(比如7:3)将数据集划分为训练集和测试集;X2为正整数。
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型;在具体实施时,预测模型优选为VGG16模型;且在选用VGG16为预测模型时,可以采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型(如图3所示)以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数(优选为AUC值);
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并等操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价;具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好;
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。
Claims (12)
1.一种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;
S2.定义基因组中所有独立内含子集合并作为标准模板;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型。
2.根据权利要求1所述的内含子保留预测模型建立方法,其特征在于还包括如下步骤:
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数;
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价。
3.根据权利要求2所述的内含子保留预测模型建立方法,其特征在于步骤S2所述的定义基因组中所有独立内含子集合并作为标准模板,具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster。
4.根据权利要求3所述的内含子保留预测模型建立方法,其特征在于步骤A所述的提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子。
5.根据权利要求4所述的内含子保留预测模型建立方法,其特征在于步骤S4所述的将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集,具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值、FPKM大于第二设定值且连续读数大于第三设定值的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例将数据集划分为训练集和测试集;X2为正整数。
6.根据权利要求5所述的内含子保留预测模型建立方法,其特征在于步骤S5所述的神经网络模型,具体为VGG16网络结构模型。
7.根据权利要求6所述的内含子保留预测模型建立方法,其特征在于步骤S5所述的采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型,具体为采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3;最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代。
8.根据权利要求7所述的内含子保留预测模型建立方法,其特征在于步骤S6所述的在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数,具体为在步骤S4得到的测试集上计算神经网络内含子保留预测模型的AUC值。
9.根据权利要求8所述的内含子保留预测模型建立方法,其特征在于步骤S7所述的获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集,具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test。
10.根据权利要求9所述的内含子保留预测模型建立方法,其特征在于步骤S11所述的根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值,具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值。
11.根据权利要求10所述的内含子保留预测模型建立方法,其特征在于步骤S12所述的根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价,具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
12.一种包括权利要求1~11之一所述的内含子保留预测模型建立方法的预测方法,具体还包括如下步骤:
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010146731.2A CN111370055B (zh) | 2020-03-05 | 2020-03-05 | 内含子保留预测模型建立方法及其预测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010146731.2A CN111370055B (zh) | 2020-03-05 | 2020-03-05 | 内含子保留预测模型建立方法及其预测方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111370055A CN111370055A (zh) | 2020-07-03 |
| CN111370055B true CN111370055B (zh) | 2023-05-23 |
Family
ID=71208615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010146731.2A Active CN111370055B (zh) | 2020-03-05 | 2020-03-05 | 内含子保留预测模型建立方法及其预测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111370055B (zh) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102605084B1 (ko) * | 2020-12-10 | 2023-11-24 | 중앙대학교 산학협력단 | 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법 |
| WO2023238973A1 (ko) * | 2022-06-10 | 2023-12-14 | 중앙대학교 산학협력단 | 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999066302A2 (en) * | 1998-06-17 | 1999-12-23 | Musc Foundation For Research Development | Recognition of protein coding regions in genomic dna sequences |
| WO2019226804A1 (en) * | 2018-05-23 | 2019-11-28 | Envisagenics, Inc. | Systems and methods for analysis of alternative splicing |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6807491B2 (en) * | 2001-08-30 | 2004-10-19 | Hewlett-Packard Development Company, L.P. | Method and apparatus for combining gene predictions using bayesian networks |
| WO2008097632A2 (en) * | 2007-02-08 | 2008-08-14 | Jiv An Biologics, Inc. | Methods for determining splice variant types and amounts |
| US20120185172A1 (en) * | 2011-01-18 | 2012-07-19 | Barash Joseph | Method, system and apparatus for data processing |
| MX2017014665A (es) * | 2015-05-16 | 2018-04-24 | Genzyme Corp | Edicion de genes de mutaciones intronicas profundas. |
| CN105975809A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种影响rna剪接的snv检测方法 |
| US10423861B2 (en) * | 2017-10-16 | 2019-09-24 | Illumina, Inc. | Deep learning-based techniques for training deep convolutional neural networks |
| CN110010201A (zh) * | 2019-04-16 | 2019-07-12 | 山东农业大学 | 一种rna选择性剪接位点识别方法及系统 |
-
2020
- 2020-03-05 CN CN202010146731.2A patent/CN111370055B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999066302A2 (en) * | 1998-06-17 | 1999-12-23 | Musc Foundation For Research Development | Recognition of protein coding regions in genomic dna sequences |
| WO2019226804A1 (en) * | 2018-05-23 | 2019-11-28 | Envisagenics, Inc. | Systems and methods for analysis of alternative splicing |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111370055A (zh) | 2020-07-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106909806B (zh) | 定点检测变异的方法和装置 | |
| CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
| CN111883223B (zh) | 患者样本数据中结构变异的报告解读方法及系统 | |
| CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
| CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
| CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
| CN106909901A (zh) | 从图像中检测物体的方法及装置 | |
| CN110110663A (zh) | 一种基于人脸属性的年龄识别方法及系统 | |
| CN111370055B (zh) | 内含子保留预测模型建立方法及其预测方法 | |
| CN112992273A (zh) | 一种预测早期结直肠癌风险评估模型及系统 | |
| CN118522444B (zh) | 基于多模态协同表示学习的piRNA-疾病关联的识别方法 | |
| US12272431B2 (en) | Detecting false positive variant calls in next-generation sequencing | |
| CN117393042A (zh) | 一种预测错义突变致病性的分析方法 | |
| CN113838528B (zh) | 基于单细胞免疫组库数据的单细胞水平耦合可视化方法 | |
| CN110175726A (zh) | 一种基于迁移性分析的跨项目缺陷预测方法 | |
| WO2024187890A1 (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
| CN106778252B (zh) | 基于粗糙集理论与waode算法的入侵检测方法 | |
| CN110223732B (zh) | 多类生物序列注释的整合方法 | |
| CN112992274A (zh) | 一种基于测序和机器学习的构建疾病风险预测模型的方法和系统 | |
| CN119153100A (zh) | 疾病风险表征预测系统及方法 | |
| AU2022218581B2 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
| CN117253540A (zh) | 单细胞特征分析方法、装置、设备和存储介质 | |
| CN110164504A (zh) | 二代测序数据的处理方法、装置及电子设备 | |
| CN117238515A (zh) | 一种特纳综合征的筛查系统 | |
| CN115064270A (zh) | 一种基于影像组学图像特征的肝癌复发预测方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |