CN116758995B

CN116758995B - 基因组注释方法和电子装置

Info

Publication number: CN116758995B
Application number: CN202311023993.XA
Authority: CN
Inventors: 王龙; 康玲; 彭珍; 马策; 刘臣; 李萍; 刘孟
Original assignee: Guangzhou Nuohe Medical Laboratory Co ltd
Current assignee: Guangzhou Nuohe Medical Laboratory Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-12-15
Anticipated expiration: 2043-08-15
Also published as: CN116758995A

Abstract

本发明提供了一种基因组注释方法和电子装置。其中，上述基因组注释方法包括：a）将测序产生的基因片段进行基因组组装，获得组装基因组序列；b）采用多种方式预测组装基因组序列，获得多种预测开放阅读框；c）利用EVM工具对多种预测开放阅读框进行基因整合，获得整合基因结构；d）基于整合基因结构进行基因注释。能够解决现有技术中对于基因组注释结果基因集中BUSCO指标低的问题，适用于基因注释领域。

Description

基因组注释方法和电子装置

技术领域

本发明涉及基因注释领域，具体而言，涉及一种基因组注释方法和电子装置。

背景技术

基因组注释是生物信息学领域的核心，基因组注释主要包括四个方面：重复序列注释、非编码RNA注释(ncRNA)、基因结构注释和基因功能注释。注释前首先构建基因模型，有三种策略：同源预测（homology-based prediction）、基于转录组预测（transcriptome-based prediction）以及从头预测（de novo prediction），最后需要用EvidenceModeler（EVM）工具对预测结果进行整合，合并成完整的基因结构，便于后续进行基因组功能注释。

BUSCO（Benchmarking Universal Single-Copy Orthologs）是用于评估基因组组装和注释的完整性的工具，BUSCO利用已有的单拷贝直系同源数据库与基因组组装和注释的结果进行比较，通过BUSCO指标对完整性进行评估。由于真核生物在转录过程中，基因能够采用不同的剪接形式（可变剪接），修剪出不同的内含子，并形成不同的转录本，导致真核生物基因结构注释难度较大，且基因组中大量非编码区域的存在也严重影响基因的定位，无法进行精准注释。故以常规的注释流程得到的基因集BUSCO值远低于基因组BUSCO的值注释，无法完整地注释基因组的BUSCO序列集，往往通过重新进行基因组组装或增加测序数据的覆盖度进行改善以提升BUSCO指标，但此种操作过于复杂，耗费时长，效率低，且人工成本过高。

发明内容

本发明的主要目的在于提供一种基因组注释方法和电子装置，以解决现有技术中对于基因组注释结果基因集中BUSCO指标低的问题。

为了实现上述目的，根据本发明的第一个方面，提供了一种基因组注释方法，该基因组注释方法包括：a）将测序产生的基因片段进行基因组组装，获得组装基因组序列；b）采用多种方式预测组装基因组序列，获得多种预测开放阅读框；c）利用EVM工具对多种预测开放阅读框进行基因整合，获得整合基因结构；d）基于整合基因结构进行基因注释。

进一步地，a）包括：利用基因片段的重叠序列构建连续序列，将连续序列依次进行聚类、排序、调整方向以及基因组组装，获得组装基因组序列。

进一步地，b）中，预测包括同源预测、基于转录组预测和从头预测；利用同源预测获得同源预测开放阅读框；利用基于转录组预测获得基于转录组预测开放阅读框；利用从头预测获得从头预测开放阅读框；其中，同源预测包括BUSCO预测，BUSCO预测包括利用BUSCO蛋白库对组装基因组序列进行预测，获得第一同源预测开放阅读框。

进一步地，同源预测还包括近源物种预测，该近源物种预测包括利用近源物种注释信息预测组装基因组序列，获得第二同源预测开放阅读框；基于转录组预测包括利用物种的RNA-seq数据预测组装基因组序列；从头预测包括利用概率模型预测组装基因组序列。

进一步地，基于转录组预测包括：利用Stringtie软件对组装基因组序列进行预测，获得第一基于转录组预测开放阅读框，和/或利用Pasa软件对组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；从头预测包括：利用August软件对组装基因组序列进行预测，获得第一从头预测开放阅读框，和/或和利用Snap软件对组装基因组序列进行预测，获得第二从头预测开放阅读框。

进一步地，c）中，多种预测开放阅读框包括第一同源预测开放阅读框、第二同源预测开放阅读框、第一基于转录组预测开放阅读框、第二基于转录组预测开放阅读框、第一从头预测开放阅读框和第二从头预测开放阅读框。

进一步地，利用EVM工具进行基因整合时，对多种不同的预测开放阅读框分别赋予相应的权重；各权重如下：第一同源预测开放阅读框的相对权重30~35%；第二同源预测开放阅读框的相对权重为5~8%；第一基于转录组预测开放阅读框的相对权重为26~32%；第二基于转录组预测开放阅读框的相对权重为29~35%；第一从头预测开放阅读框的相对权重为1~3%；第二从头预测开放阅读框的相对权重为1~3%。

为了实现上述目的，根据本发明的第二个方面，提供了一种基因组注释的电子装置；该电子装置包括基因组组装单元、预测开放阅读框获取单元、基因整合单元和基因注释单元；其中，基因组组装单元，用于组装测序产生的基因片段，获得组装基因组序列；开放阅读框获取单元，用于预测组装基因组序列，获得多种预测开放阅读框；基因整合单元，用于利用EVM工具整合多种预测开放阅读框，获得整合基因结构；基因注释单元，用于注释整合基因结构。

进一步地，基因组组装单元包括连续序列构建单元和组装基因组序列获取单元；连续序列构建单元，用于根据基因片段的重叠序列获得连续序列；组装基因组序列获取单元，用于聚类、排序和调整连续序列方向并进行组装，获得组装基因组序列。

进一步地，开放阅读框获取单元包括同源预测单元、基于转录组预测单元和从头预测单元；同源预测单元，用于预测组装基因组序列，获得同源预测开放阅读框；基于转录组预测单元，用于预测组装基因组序列，获得基于转录组预测开放阅读框；从头预测单元，用于预测组装基因组序列，获得从头预测开放阅读框；其中，同源预测单元包括BUSCO蛋白库预测单元，用于利用BUSCO数据集预测组装基因组序列，获得第一同源预测开放阅读框。

进一步地，同源预测单元还包括近源物种预测单元，近源物种预测单元用于利用近源物种注释信息预测组装基因组序列，获得第二同源预测开放阅读框；基于转录组预测单元，用于利用物种的RNA-seq数据预测组装基因组序列；从头预测单元，用于利用概率模型预测组装基因组序列。

进一步地，基于转录组预测单元包括Stringtie软件预测单元和/或Pasa软件预测单元；Stringtie软件预测单元用于利用Stringtie软件对组装基因组序列进行预测，获得第一基于转录组预测开放阅读框；Pasa软件预测单元用于利用Pasa软件对组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；从头预测单元包括August软件预测单元和/或Snap软件预测单元；August软件预测单元用于利用August软件对组装基因组序列进行预测，获得第一从头预测开放阅读框；Snap软件预测单元，用于利用Snap软件对组装基因组序列进行预测，获得第二从头预测开放阅读框。

进一步地，基因整合单元中多种预测开放阅读框包括第一同源预测开放阅读框、第二同源预测开放阅读框、第一基于转录组预测开放阅读框、第二基于转录组预测开放阅读框、第一从头预测开放阅读框和第二从头预测开放阅读框。

进一步地，基因整合单元还包括权重赋予单元，用于分别赋予不同的预测开放阅读框相应的权重；各权重如下：第一同源预测开放阅读框的相对权重为30~35%；第二同源预测开放阅读框的相对权重为5~8%；第一基于转录组预测开放阅读框的相对权重为26~32%；第二基于转录组预测开放阅读框的相对权重为29~35%；第一从头预测开放阅读框的相对权重为1~3%；第二从头预测开放阅读框的相对权重为1~3%。

为了实现上述目的，根据本发明的第三个方面，提供了一种计算机可读储存介质，该计算机可读储存介质包括存储的程序，其中，在程序运行时，控制计算机可读储存介质所在设备执行上述基因组注释方法。

为了实现上述目的，根据本发明的第四个方面，提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述基因组注释方法。

应用本发明的技术方案，通过利用BUSCO蛋白库对组装基因组序列进行同源注释，以及在基因整合过程中给予相对高的权重，实现了基因组组装和注释结果的BUSCO指标值提升的效果。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的实施例的一种提升BUSCO指标的基因组注释方法的流程图。

图2示出了根据本发明是实施例的一种用于基因注释中提升BUSCO指标的电子装置的示意图。

图3示出了根据本发明实施例的一种用于基因注释中提升BUSCO指标的硬件结构框图。

图4示出了根据本发明实施例的提升BUSCO指标的基因组注释方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，在现有技术中，由于真核生物转录本过多，且非编码区域复杂，故利用常规的基因注释易致使真核生物基因注释的结果的完整性和精准性低下，导致BUSCO基因集的BUSCO值与基因组的BUSCO值的差距大。因而，在本申请中发明人尝试开发一种有效提升BUSCO指标值的方法，通过利用BUSCO蛋白库对组装基因组序列进行同源注释，以及在基因整合过程中给予相对高的权重，实现了基因组组装和注释结果的BUSCO指标值提升的目的，因而提出了本申请的一系列保护方案。

在本申请第一种典型的实施方式中，提供了一种基因组注释方法，该基因组注释方法包括：a）将测序产生的基因片段进行基因组组装，获得组装基因组序列；b）采用多种方式预测组装基因组序列，获得多种预测开放阅读框；c）利用EVM工具对多种预测开放阅读框进行基因整合，获得整合基因结构；d）基于整合基因结构进行基因注释。

图1是根据本发明实施例的一种基因组注释方法的流程图，如图1所示，该方法包括如下步骤。

利用上述方法，首先将测序测产生的基因片段进行基因组组装，获得组装基因组序列（S10）。上述基因组组装中，先通过上述基因片段中的重叠序列构建连续序列，将连续序列聚类、排序和调整方向，获得组装基因组序列。

获得组装基因组序列后，采用多种预测方式对组装基因组序列进行预测，获得不同的预测开放阅读框（S20）。上述预测包括同源预测、基于转录组预测和从头预测。将由不同预测方法产生的预测开放阅读框进行整合，获得整合基因结构（S30），通常利用EvidenceModeler（EVM）对不同的预测开放阅读框进行整合。最后，基于整合的基因结构进行基因注释（S40）。

BUSCO指标是一种用于衡量基因组组装和基因组注释质量的指标，基于基因组组装和基因组注释结果与已知的参考基因集之间的比对情况进行计算。BUSCO指标是根据参考基因集中的单拷贝基因的完整性来衡量基因组组装和基因组注释的准确性。单拷贝基因是指在基因组中只存在一份拷贝的基因。BUSCO指标通过计算已知的基因组中单拷贝基因的比对情况，来评估基因组装的完整性和基因组注释的准确性。BUSCO指标越高，表示基因组组装的完整性和基因组注释的准确性越高。

真核生物在转录过程中，由于可变剪接能够形成许多不同的转录本，且非编码区域过多，严重影响基因的定位，故真核生物基因结构注释难度较大，且在注释过程中易造成基因的缺失，从而导致基因注释文件信息缺漏，BUSCO指标低下。可变剪接（alternativesplicing）是指在基因转录过程中，剪接酶通过不同的方式将前体mRNA（pre-mRNA）中的外显子（exon）和内含子（intron）连接起来，从而产生多种不同的成熟mRNA（mature mRNA）转录本。可变剪接是一种常见的基因调控机制，能够通过改变mRNA的剪接模式，从而产生具有不同功能和调控特性的蛋白质变体。

在一种优选的实施例中，a）中包括利用基因片段的重叠序列构建连续序列，将连续序列依次进行聚类、排序、调整方向以及基因组组装，获得组装基因组序列。

上述组装即基因组组装，指的是将测序产生的短基因片段（reads）进行组装拼接形成较长的连续基因序列（conting）。基因组组装首先根据reads之间的重叠序列（overlap）构建出conting，再利用allhic等软件对上述conting进行聚类、排序和调整方向，最终得到染色体级别的基因组，即组装基因组序列。

在一种优选的实施例中，在b）中，上述预测包括同源预测、基于转录组预测和从头预测；利用同源预测获得同源预测开放阅读框；利用基于转录组预测获得基于转录组预测开放阅读框；利用从头预测获得从头预测开放阅读框；其中，同源预测包括BUSCO预测，BUSCO预测包括利用BUSCO蛋白库对组装基因组序列进行预测，获得第一同源预测开放阅读框。

上述预测即组装基因组序列预测，为基因注释前的重要步骤，在常规的注释流程中一般包括三种预测策略，包括同源预测、基于转录组预测以及从头预测。

同源预测（homology-based prediction）：某些基因的蛋白在相近物种间的保守性高，所以在预测时使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点。

基于转录组预测（transcriptome-based prediction）：通过物种的RNA-seq数据辅助注释，能够较为准确的确定外显子区域和剪切位点。

从头预测（de novo prediction）：通过已有的概率模型来预测基因结构。

BUSCO蛋白库是一种用于基因组注释和评估基因组组装质量的参考数据库，包括一组高度保守且普遍存在于各种生物物种中的单拷贝正交基因（orthologs）序列。BUSCO蛋白库通常包括两个主要的数据集：OrthoDB和BUSCO数据集。OrthoDB数据库是一个广泛的正交基因数据库，包含了来自各种物种的正交基因集合。BUSCO数据集是根据OrthoDB中的正交基因进行筛选和优化得到的，包括较小且更易比对的一组正交基因序列。通常，在基因组注释和基因组组装质量评估中，目标基因与BUSCO蛋白库进行比对。通过比对目标基因组中的基因预测序列与BUSCO蛋白库中的正交基因序列，能够评估基因组注释的完整性和准确性，以及基因组组装的质量，通常在基因组注释的最后阶段或在基因组组装完成后进行。能够通过比对结果来评估基因组注释的完整性和质量，检测基因组组装是否完整。

但是在本申请的基因组注释方法中，在对组装基因组序列进行同源预测时创造性地利用BUSCO蛋白库中的高度保守的单拷贝正交基因序列对上述组装基因组序列进行预测，从而获得第一同源预测开放阅读框。与常规的利用近源物种注释信息预测组装基因组序列，获得的同源预测开放阅读框、基于转录组预测开放阅读框和从头预测开放阅读框加入至后续的基因整合中，获得整合基因结构，能够提高预测开放阅读框中基因信息的完整性，以及整合基因结构的可靠性，从而提高后续基因注释的准确性和用于评价的BUSCO指标。

在现有技术中，通常通过增加测序的数据或改进基因组组装来提升BUSCO指标。增加测序数据的方法包括增加测序深度、使用多平台测序、增加样本数量或增加测序序列覆盖的范围来提高基因组或转录组的完整性，从而提升BUSCO指标，此改进方法增加了测序的成本，且测序数据增多，后续数据处理复的杂程度愈增。改进基因组组装的方法包括使用高通量测序数据、优化组装参数、或矫正组装数据，此改进方法涉及多个步骤，调整参数过多，致使基因组注释的复杂程度增加，时间成本提高。

在一种优选的实施例中，同源预测还包括近源物种预测，近源物种预测包括利用近源物种注释信息预测上述组装基因组序列，获得第二同源预测开放阅读框；基于转录组预测包括利用物种的RNA-seq数据预测上述组装基因组序列；从头预测包括利用概率模型预测组装基因组序列。

在一种优选的实施例中，基于转录组预测包括利用Stringtie软件对上述组装基因组序列进行预测，获得第一基于转录组预测开放阅读框，和/或利用Pasa软件对上述组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；从头预测包括利用August软件对上述组装基因组序列进行预测，获得第一从头预测开放阅读框，和/或和利用Snap软件对上述组装基因组序列进行预测，获得第二从头预测开放阅读框。

在一种优选的实施例中，上述c）中，多种预测开放阅读框包括第一同源预测开放阅读框、第二同源预测开放阅读框、第一基于转录组预测开放阅读框、第二基于转录组预测开放阅读框、第一从头预测开放阅读框和第二从头预测开放阅读框。

每一种预测的方法获得的预测开放阅读框不同，需对不同预测来源的开放阅读框进行合并，才能够形成完整的基因结构。Evidence Modeler（EVM）通常用于基因预测和基因注释的研究中，主要功能是将来自不同证据源的预测结果（如基于比对的方法、基于序列模式的方法、基于转录组数据的方法）进行整合和评估，生成最终具有一致性的预测结果。EVM工具利用统计学方法和机器学习算法来加权和融合不同证据的信息，并生成概率值来表示每个基因的可靠性和置信度。基于可靠的基因结构，后续才能够保证基因注释的准确性。

在一种优选的实施例中，利用上述EVM工具进行基因整合时，对不同的预测开放阅读框分别赋予相应的权重；各权重如下：上述第一同源预测开放阅读框的相对权重为30~35%（包括但不限于30%、31%、32%、33%、34%或35%）；上述第二同源预测开放阅读框的相对权重为5~8%（包括但不限于5%、6%、7%或8%）；上述第一基于转录组预测开放阅读框的相对权重为26~32%（包括但不限于26%、27%、28%、29%、30%、31%或32%）；上述第二基于转录组预测开放阅读框的相对权重为29~35%（包括但不限于29%、30%、31%、32%、33%、34%或35%）；上述第一从头预测开放阅读框的相对权重为1~3%（包括但不限于1%、2%或3%）；上述第二从头预测开放阅读框的相对权重为1~3%（包括但不限于1%、2%或3%）。

上述相对权重是指每个预测开放阅读框的权重占所有预测开放阅读框的权重和的比例。权重分配是EVM工具进行基因整合中的一个关键步骤，决定了最终基因注释的准确性。基于转录组预测是基于RNA-seq数据对基因组进行预测，通常基于同一物种的转录组数据进行分析，因此能够更好地适应目标物种的基因组特征，能够直接反映基因的表达情况，对基因表达的预测和注释的准确性较高。相比之下，常规的同源预测容易受到不同物种的限制，特别是在物种间的进化距离较远时，同源预测的准确性较低，只能提供基因的大致定位和功能。从头预测是基于计算机算法和模型进行的，对于基因的结构和功能的预测存在不确定性，相比于基于转录组数据预测和同源预测，从头预测的结果可靠性较低。故在常规的基因注释流程中，EVM整合一般赋予的权重比例从大到小排序为：基于转录组预测、同源预测及从头预测。

但在本申请的基因组注释方法中，在利用EVM工具进行基因整合时创造性地引入了属于第一同源预测开放阅读框，第一同源预测开放阅读框为同源预测获得的结果，但在上述基因组注释方法中，将第一同源预测开放阅读框的相对权重提高至与转录组预测获得的开放阅读框相当的水平，能够提高获得的整合基因结构的可靠性，能够提高后续基因注释的完整性和用于评价的BUSCO指标。

在本申请第二种典型的实施方式中，提供了一种基因组注释的电子装置，上述电子装置包括基因组组装单元10、预测开放阅读框获取单元20、基因整合单元30和基因注释单元40；其中，基因组组装单元10，用于组装测序产生的基因片段，获得组装基因组序列；开放阅读框获取单元20，用于预测组装基因组序列，获得多种预测开放阅读框；基因整合单元30，用于利用EVM工具整合多种预测开放阅读框，获得整合基因结构；基因注释单元40，用于注释整合基因结构。

图2是根据本发明实施例的一种用于基因注释中提升BUSCO指标的电子装置的示意图，如图2所示，该装置包括基因组组装单元10、预测开放阅读框获取单元20、基因整合单元30和基因注释单元40。

在一种优选的实施例中，上述基因组组装单元10包括连续序列构建单元101和组装基因组序列获取单元102；连续序列构建单元101，用于处理基因片段的重叠序列，获得连续序列；组装基因组序列获取单元102，用于对上述连续序列依次进行聚类、排序和调整方向及组装，获得组装基因组序列。

在一种优选的实施例中，上述开放阅读框获取单元20包括同源预测单元201、基于转录组预测单元202和从头预测单元203；同源预测单元201，用于预测组装基因组序列，获得同源预测开放阅读框；基于转录组预测单元202，用于预测组装基因组序列，获得基于转录组预测开放阅读框；从头预测单元203，用于预测组装基因组序列，获得从头预测开放阅读框；其中，同源预测单元201包括BUSCO蛋白库预测单元2011，用于预测组装基因组序列，获得第一同源预测开放阅读框。

在一种优选的实施例中，上述同源预测单元201还包括近源物种预测单元2012；近源物种预测单元2012，用于利用近源物种注释信息预测组装基因组序列，获得第二预测开放阅读框；上述基于转录组预测单元202，用于利用物种的RNA-seq数据预测组装基因组序列；上述从头预测单元203，用于利用概率模型预测组装基因组序列。

在一种优选的实施例中，上述基于转录组预测单元202，包括Stringtie软件预测单元2021和/或Pasa软件预测单元2022；Stringtie软件预测单元2021用于利用Stringtie软件对组装基因组序列进行预测，获得第一基于转录组预测开放阅读框；Pasa软件预测单元2022用于利用Pasa软件对组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；从头预测单元203包括August软件预测单元2031和/或Snap软件预测单元2032；August软件预测单元2031，用于利用August软件对组装基因组序列进行预测，获得第一从头预测开放阅读框；Snap软件预测单元2032，用于利用Snap软件对组装基因组序列进行预测，获得第二从头预测开放阅读框。

在一种优选的实施例中，上述基因整合单元30中多种预测开放阅读框包括第一同源预测开放阅读框、第二同源预测开放阅读框、第一基于转录组预测开放阅读框、第二基于转录组预测开放阅读框、第一从头预测开放阅读框和第二从头预测开放阅读框。

在一种优选的实施例中，上述基因整合单元30还包括权重赋予单元301，用于分别赋予不同的预测开放阅读框相应的权重；各权重如下：上述第一同源预测开放阅读框的相对权重为30~35%；上述第二同源预测开放阅读框的相对权重为5~8%；上述第一基于转录组预测开放阅读框的相对权重为26~32%；上述第二基于转录组预测开放阅读框的相对权重为29~35%；上述第一从头预测开放阅读框的相对权重为1~3%；上述第二从头预测开放阅读框的相对权重为1~3%。

在本申请第三种典型的实施方式中，提供了一种计算机可读储存介质，上述计算机可读储存介质包括存储的程序，其中，在该程序运行时，控制计算机可读储存介质所在设备执行上述任一项基因组注释方法。

在本申请第四种典型的实施方式中，提供了一种处理器，上述处理器用于运行程序，其中，程序运行上述任一项基因组注释方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加检测装置等硬件设备的方式来实现。基于这样的理解，本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分的方法。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例，图3是本发明实施例的一种提升BUSCO指标的基因组注释方法的终端的硬件结构框图。如图3所示，终端可以包括一个或多个（图3中仅示出一个）处理器A1（处理器A1可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器B1，可选地，上述终端还可以包括用于通信功能的传输设备C1以及输入输出设备D1。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器B1可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的读段拼接、分簇、一致性处理等方法对应的计算机程序，处理器A1通过运行存储在存储器B1内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器B1可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器B1可进一步包括相对于处理器A1远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备C1用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备C1包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备C1可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

显然，本领域的技术人员应该明白，上述的本申请的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

下面将结合具体的实施例来进一步详细解释本申请的有益效果。

实施例1

本实施例所提供的提升BUSCO指标的基因组注释方法按照图4所示的流程图进行，具体如下：

A.基因组组装拼接

1.对基因组进行标准化处理，得到标准化的fasta文件format.fa。

标准化处理包括：将基因组按照序列长短进行排序，或按参考基因组的ID顺序进行排序，获得基因组序列ID；利用nummer软件将参考基因组染色体和目标基因基因组染色体进行比对，得到二者的对应关系，通过对应关系重新命名目标染色体ID，获得染色体ID和Conting ID，即标准化的fasta文件format.fa。

2.获得标准化文件后对其进行重复序列预测，图4中的第一次重复序列预测步骤如下：使用repeatmolder软件对format.fa中的重复序列进行预测得到序列自身的重复库。

3.图4中的第二次重复序列预测步骤如下：将序列自身的重复库与repeatbase核酸库合并，使用repeatmasker软件再次预测基因组的重复单元。综合两次预测的基因组重复单元，整合后得到屏蔽重复单元后的组装基因组序列masked.fa，即图4中屏蔽重复单元后的组装基因组序列。

B.基于转录组预测方法获取基于转录组预测开放阅读框（如图4中的基于转录组预测部分流程图所示）

1.Hisat2处理&Stringtie预测：使用软件Hisat2将转录组数据与format.fa进行比对，得到比对后的bam文件，利用Stringtie软件对其进行预测，获得第一基于转录组预测开放阅读框（orf1）。

2.Trinity处理&Pasa预测：使用Trinity软件将转录组数据进行拼接得到Trinity.fa，利用Pasa软件对Trinity.fa进行预测，获得第二基于转录组预测开放阅读框（orf2）。

3.获得基因训练集：通过第二基于转录组预测开放阅读框（orf2）构建物种自身的物种训练集用于后续预测

C.从头预测方法获取从头预测开放阅读框（如图4中的从头预测部分流程图所示）

1.August预测：使用软件August，基于上述基因训练集对masked.fa进行预测，获得第一从头预测开放阅读框（orf3）。

2.Snap预测：使用软件Snap，基于上述基因训练集对masked.fa进行预测，获得第二从头预测开放阅读框（orf4）。

D.同源注释预测方法获取同源注释预测开放阅读框（如图4中的同源预测流程所示）

1.加入BUSCO蛋白库：使用软件genewise软件及blast软件，利用BUSCO蛋白库对masked.fa进行预测，获得第一同源注释预测开放阅读框（orf5）。

2.使用软件genewise软件及blast软件，利用近源物种的序列信息对masked.fa进行预测，获得第二同源注释预测开放阅读框（orf6）。

E.基因整合（如图4中EVM整合部分流程图所示）

将第一同源预测开放阅读框的权重设置为100，相对权重为30.30%；

将第二同源预测开放阅读框的权重设置为20，相对权重为6.06%；

将第一基于转录组预测开放阅读框的权重设置为100，相对权重为30.30%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为30.30%；

将第一从头预测开放阅读框的权重设置为5，相对权重为1.52%；

将第二从头预测开放阅读框的权重设置为5，相对权重为1.52%。

相位更新、假阳性过滤：使用EVM软件进行整合得到第一基因组预测文件gff1；运用Pasa软件对gff1进行相位更新得到第二基因组预测文件gff2。对gff2文件进行假阳性过滤得到终版基因组预测文件gff3。使用blast进行基因功能注释。

假阳性过滤包括：通过gff2得到每个基因中从头预测、同源预测、重复序列及转录组预测支持的占比矩阵；通过占比矩阵过滤掉只有从头预测的基因；过滤掉没有转录组预测支持且重复序列占比50%的基因。

F.BUSCO指标计算

利用上述步骤A-E分别对水稻、棉花和猪样本的基因组进行注释后，使用BUSCO软件对基因注释的结果进行评估，获得BUSCO指标。结果如表1所示。

实施例2

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为95，相对权重为34.50%；

将第二同源预测开放阅读框的权重设置为20，相对权重为7.22%；

将第一基于转录组预测开放阅读框的权重设置为74，相对权重为26.90%；

将第二基于转录组预测开放阅读框的权重设置为80，相对权重为29.20%；

将第一从头预测开放阅读框的权重设置为3，相对权重为1.09%；

将第二从头预测开放阅读框的权重设置为3，相对权重为1.09%。

结果如表1所示。

实施例3

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为20，相对权重为8.33%；

将第二同源预测开放阅读框的权重设置为20，相对权重为8.33%；

将第一基于转录组预测开放阅读框的权重设置为80，相对权重为33.33%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为41.67%；

将第一从头预测开放阅读框的权重设置为10，相对权重为4.17%；

将第二从头预测开放阅读框的权重设置为10，相对权重为4.17%。

结果如表1所示。

实施例4

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为40，相对权重为14.28%；

将第二同源预测开放阅读框的权重设置为40，相对权重为14.28%；

将第一基于转录组预测开放阅读框的权重设置为80，相对权重为28.60%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为35.70%；

将第一从头预测开放阅读框的相对权重设置为10，相对权重为3.57%；

将第二从头预测开放阅读框的相对权重设置为10，相对权重为3.57%。

结果如表1所示。

实施例5

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为40，相对权重为16.00%；

将第二同源预测开放阅读框的权重设置为20，相对权重为8.00%；

将第一基于转录组预测开放阅读框的权重设置为80，相对权重为32.00%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为40.00%；

将第一从头预测开放阅读框的相对权重设置为5，相对权重为2.00%；

将第二从头预测开放阅读框的相对权重设置为5，相对权重为2.00%。

结果如表1所示。

实施例6

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为80，相对权重为25.80%；

将第二同源预测开放阅读框的权重设置为20，相对权重为6.50%；

将第一基于转录组预测开放阅读框的权重设置为100，相对权重为32.24%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为32.24%；

将第一从头预测开放阅读框的相对权重设置为5，相对权重为1.61%；

将第二从头预测开放阅读框的相对权重设置为5，相对权重为1.61%；

结果如表1所示。

实施例7

相较于实施例1，仅步骤E有区别。

将第一同源预测开放阅读框的权重设置为100；相对权重为41.6%。

将第二同源预测开放阅读框的权重设置为20；相对权重为8.3%。

将第一基于转录组预测开放阅读框的权重设置为50；相对权重为20.8%。

将第二基于转录组预测开放阅读框的权重设置为50；相对权重为20.8%。

将第一从头预测开放阅读框的相对权重设置为10；相对权重为4.16%。

将第二从头预测开放阅读框的相对权重设置为10；相对权重为4.16%。

结果如表1所示。

对比例1

在本对比例中，不加入由BUSCO库注释获得的第一同源预测开放阅读框与其他预测开放阅读框进行整合，即如常规的基因注释流程，在同源注释预测的中仅仅使用近源物种的序列注释信息与基因组碱基序列进行注释，获得同源预测开放阅读框。

将同源预测开放阅读框的权重设置为20，相对权重为8.70%；

将第一基于转录组预测开放阅读框的权重设置为100，相对权重为43.48%；

将第二基于转录组预测开放阅读框的权重设置为100，相对权重为43.48%；

将第一从头预测开放阅读框的权重设置为5，相对权重为2.17%；

将第二从头预测开放阅读框的权重设置为5，相对权重为2.17%。

剩余步骤与实施例1一致。结果如表1所示。

表1为实施例1~5和对比例1中基因注释结果的BUSCO指标。

表1

。

在常规的基因注释流程中，当BUSCO值达到95%，通过提高测序数据的深度或调整常规的预测开放阅读框权重时来提高BUSCO值时，提高的效果不明显，且操作复杂，耗时长，故通过常规方法无法有效地提高BUSCO值。在本申请实施例1中加入了第一同源预测阅读框并提高其权重，该方法与对比例1的常规注释流程的方法相比，BUSCO值提高2%~3%。而且在常规的基因组注释中，若待注释物种的预测注释信息与近源物种的注释信息非常接近时，其BUSCO值能够达到98.5%，但是利用本申请中的技术方案，使得基因组注释的完整性更强，精确性更高，能够进一步提高基因组注释的BUSCO上限值。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：对测序产生的基因片段进行基因组组装后获得的组装基因组序列进行预测时，在同源预测过程中利用BUSCO蛋白库对组装基因组序列进行注释以及在基因整合时提高该数据的权重，能够保证基因注释结果的准确性，提高注释基因组的BUSCO指标，也避免了为提升BUSCO指标重新对基因组进行重新组装或增加测序数据进行回捞导致的基因注释成本提高及流程复杂化。应用本发明中的技术方案与传统的技术方案相比能够减少2天的回捞数据的时间，利用本发明中的方法能够直接省略此步骤，将整体的基因组注释的流程时间由15d缩短至13d，减少了分析数据的时间成本，以及计算机的算力成本。故本发明的技术方案既保证了基因组注释结果的准确性，还减少了基因组注释流程的时间成本，能够达到提升基因注释的BUSCO指标的目的。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基因组注释方法，其特征在于，所述基因组注释方法包括：

a）将测序产生的基因片段进行基因组组装，获得组装基因组序列；

b）采用多种方式预测所述组装基因组序列，获得多种预测开放阅读框；

c）利用EVM工具对多种所述预测开放阅读框进行基因整合，获得整合基因结构；

d）基于所述整合基因结构进行基因注释；

所述b）中，所述预测包括同源预测、基于转录组预测和从头预测；

利用所述同源预测获得同源预测开放阅读框；

利用所述基于转录组预测获得基于转录组预测开放阅读框；

利用所述从头预测获得从头预测开放阅读框；

其中，所述同源预测包括BUSCO预测，所述BUSCO预测包括利用BUSCO蛋白库对所述组装基因组序列进行预测，获得第一同源预测开放阅读框；

所述c）中，所述基因整合包括在所述EVM工具中，对不同的所述预测开放阅读框分别赋予相应的权重，其中，所述第一同源预测开放阅读框的相对权重与所述基于转录组预测开放阅读框的相对权重相当。

2.根据权利要求1所述的方法，其特征在于，所述a）包括：利用所述基因片段的重叠序列构建连续序列，将所述连续序列依次进行聚类、排序、调整方向以及所述基因组组装，获得所述组装基因组序列。

3.根据权利要求1所述的方法，其特征在于，

所述同源预测还包括近源物种预测，所述近源物种预测包括利用近源物种注释信息预测所述组装基因组序列，获得第二同源预测开放阅读框；

所述基于转录组预测包括利用物种的RNA-seq数据预测所述组装基因组序列；

所述从头预测包括利用概率模型预测所述组装基因组序列。

4.根据权利要求3所述的方法，其特征在于，所述基于转录组预测包括：利用Stringtie软件对所述组装基因组序列进行预测，获得第一基于转录组预测开放阅读框，和/或利用Pasa软件对所述组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；

所述从头预测包括：利用August软件对所述组装基因组序列进行预测，获得第一从头预测开放阅读框，和/或和利用Snap软件对所述组装基因组序列进行预测，获得第二从头预测开放阅读框。

5.根据权利要求4所述的方法，其特征在于，所述c）中，多种所述预测开放阅读框包括所述第一同源预测开放阅读框、所述第二同源预测开放阅读框、所述第一基于转录组预测开放阅读框、所述第二基于转录组预测开放阅读框、所述第一从头预测开放阅读框和所述第二从头预测开放阅读框。

6.根据权利要求5所述的方法，其特征在于，利用所述EVM工具进行所述基因整合时，对多种不同的所述预测开放阅读框分别赋予相应的权重；

各所述权重如下：

所述第一同源预测开放阅读框的相对权重30~35%；

所述第二同源预测开放阅读框的相对权重为5~8%；

所述第一基于转录组预测开放阅读框的相对权重为26~32%；

所述第二基于转录组预测开放阅读框的相对权重为29~35%；

所述第一从头预测开放阅读框的相对权重为1~3%；

所述第二从头预测开放阅读框的相对权重为1~3%。

7.一种基因组注释的电子装置，其特征在于，所述电子装置包括基因组组装单元、预测开放阅读框获取单元、基因整合单元和基因注释单元；

其中，所述基因组组装单元，用于组装测序产生的基因片段，获得组装基因组序列；

所述开放阅读框获取单元，用于预测所述组装基因组序列，获得多种预测开放阅读框；

所述基因整合单元，用于利用EVM工具整合多种所述预测开放阅读框，获得整合基因结构；

所述基因注释单元，用于注释所述整合基因结构；

所述开放阅读框获取单元包括同源预测单元、基于转录组预测单元和从头预测单元；

所述同源预测单元，用于预测所述组装基因组序列，获得同源预测开放阅读框；

所述基于转录组预测单元，用于预测所述组装基因组序列，获得基于转录组预测开放阅读框；

所述从头预测单元，用于预测所述组装基因组序列，获得从头预测开放阅读框；

其中，所述同源预测单元包括BUSCO蛋白库预测单元，用于利用BUSCO数据集预测所述组装基因组序列，获得第一同源预测开放阅读框；

所述基因整合单元对不同的所述预测开放阅读框分别赋予相应的权重，其中，所述基因整合单元赋予所述第一同源预测开放阅读框的相对权重与赋予所述基于转录组预测开放阅读框的相对权重相当。

8.根据权利要求7所述的电子装置，其特征在于，所述基因组组装单元包括连续序列构建单元和组装基因组序列获取单元；

所述连续序列构建单元，用于根据所述基因片段的重叠序列获得连续序列；

所述组装基因组序列获取单元，用于对所述连续序列依次进行聚类、排序、调整方向及组装，获得所述组装基因组序列。

9.根据权利要求7所述的电子装置，其特征在于，

所述同源预测单元还包括近源物种预测单元，所述近源物种预测单元用于利用近源物种注释信息预测所述组装基因组序列，获得第二同源预测开放阅读框；

所述基于转录组预测单元，用于利用物种的RNA-seq数据预测所述组装基因组序列；

所述从头预测单元，用于利用概率模型预测所述组装基因组序列。

10.根据权利要求9所述的电子装置，其特征在于，所述基于转录组预测单元包括Stringtie软件预测单元和/或Pasa软件预测单元；所述Stringtie软件预测单元用于利用Stringtie软件对所述组装基因组序列进行预测，获得第一基于转录组预测开放阅读框；所述Pasa软件预测单元用于利用Pasa软件对所述组装基因组序列进行预测，获得第二基于转录组预测开放阅读框；

所述从头预测单元包括August软件预测单元和/或Snap软件预测单元；所述August软件预测单元用于利用August软件对所述组装基因组序列进行预测，获得第一从头预测开放阅读框；所述Snap软件预测单元，用于利用Snap软件对所述组装基因组序列进行预测，获得第二从头预测开放阅读框。

11.根据权利要求10所述的电子装置，其特征在于，所述基因整合单元中多种所述预测开放阅读框包括所述第一同源预测开放阅读框、所述第二同源预测开放阅读框、所述第一基于转录组预测开放阅读框、所述第二基于转录组预测开放阅读框、所述第一从头预测开放阅读框和所述第二从头预测开放阅读框。

12.根据权利要求11所述的电子装置，其特征在于，所述基因整合单元还包括权重赋予单元，用于分别赋予不同的所述预测开放阅读框相应的权重；

各所述权重如下：

所述第一同源预测开放阅读框的相对权重为30~35%；

所述第二同源预测开放阅读框的相对权重为5~8%；

所述第一基于转录组预测开放阅读框的相对权重为26~32%；

所述第二基于转录组预测开放阅读框的相对权重为29~35%；

所述第一从头预测开放阅读框的相对权重为1~3%；

所述第二从头预测开放阅读框的相对权重为1~3%。

13.一种计算机可读储存介质，其特征在于，所述计算机可读储存介质包括存储的程序，其中，在所述程序运行时，控制所述计算机可读储存介质所在设备执行权利要求1至6中任一项所述的基因组注释方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行权利要求1至6中任一项所述的基因组注释方法。