CN111710375A - 一种分子性质预测方法及系统 - Google Patents
一种分子性质预测方法及系统 Download PDFInfo
- Publication number
- CN111710375A CN111710375A CN202010403158.9A CN202010403158A CN111710375A CN 111710375 A CN111710375 A CN 111710375A CN 202010403158 A CN202010403158 A CN 202010403158A CN 111710375 A CN111710375 A CN 111710375A
- Authority
- CN
- China
- Prior art keywords
- model
- vertex
- functional
- basis
- molecular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005284 basis set Methods 0.000 claims abstract description 56
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 239000000126 substance Substances 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 39
- 238000007637 random forest analysis Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009021 linear effect Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 125000003118 aryl group Chemical group 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000009396 hybridization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 150000001336 alkenes Chemical group 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- -1 polyphenylene structure Polymers 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 17
- 238000003775 Density Functional Theory Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000004836 empirical method Methods 0.000 abstract description 3
- 238000000611 regression analysis Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 230000005428 wave function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 229920000265 Polyparaphenylene Chemical group 0.000 description 1
- 238000005263 ab initio calculation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005290 field theory Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004776 molecular orbital Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003077 quantum chemistry computational method Methods 0.000 description 1
- 230000005610 quantum mechanics Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000004235 valence bond calculation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种分子性质预测方法及系统,涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,在化学多世界阐释的框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,以分子结构、基组和泛函等信息作为输入,通过机器学习模型输出分子性质的预测结果。本发明对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。
Description
技术领域
本发明涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,具体为一种在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子性质的理论方法。
背景技术
分子的各种内禀性质计算在量子化学/计算化学中是核心问题之一。早期的解决方案是基于经验、半经验的模型哈密顿理论进行求解,例如休克尔分子轨道理论、经典价键理论。上世纪90年代开始,随着计算机软硬件的飞速发展,基于从头算哈密顿的理论方法占据了主要的地位,这些理论方法包括Hartree-Fock自洽场理论以及基于Hartree-Fock波函数的电子相关方法、密度泛函理论、基于格林函数的方法等。相对于Hartree-Fock等基于波函数的理论,密度泛函理论的最大区别就是用电子密度取代波函数,在此基础上对体系中的电子行为进行求解。因为多电子波函数有3n个变量(n为电子数,每个电子包含三个空间变量),而电子密度仅是三个变量的函数,无论在概念上还是实际上都更方便处理。虽然早期人们普遍认为密度泛函理论在量子化学计算中不能给出足够精确的结果,但是随着密度泛函理论中所采用的近似被重新提炼成更好的交换关联作用泛函,密度泛函方法的计算精度已经得到了很大的提升。当前密度泛函理论方法有着较低的理论计算标度(N3-4,N为体系大小)和较为可靠的精度,在计算化学领域已经发展为针对中小规模分子体系最为流行的理论计算方法。
一般来说,密度泛函方法计算至少需要选择交换关联泛函以及分子原子对应的基组模型。然而交换关联泛函至少有上百种,基组(某个原子所用基函数的组合,基函数为分子轨道线性展开时用到的独立基矢)的数目甚至更多于泛函的数目,而且无论泛函还是基组均有一定的可定制性。因此密度泛函计算中基组和泛函的组合可以认为有无限多种,这也导致科研工作者在相关性质的计算过程中要选择不同的基组和泛函进行计算测试;同时在特定泛函和基组下面得到的计算结果无法直接地外推到其他的泛函和基组组合下面。以上这些不便也极大的影响了科研工作者在该方面的工作效率。
发明内容
本发明的目的是提出一种分子性质预测方法及系统,在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子的各种性质。
为实现上述目的,本发明采用以下技术方案:
一种分子性质预测方法,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型:随机森林(RF)模型、双向长短期记忆网络(Bi-LSTM)模型、消息传递神经网络(MPNN)模型和多层图卷积神经网络(MGCN)模型中的一个或多个;
将待预测分子的分子结构信息(如SMILES编码)、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中进行分子性质的预测,包括:
将分子的分子结构信息、泛函类型和基函数输入到RF模型中进行预测;
将独热形式的分子结构信息、泛函类型和基函数输入到Bi-LSTM模型中进行预测;
将分子结构信息输入到MPNN模型中进行预测;
将分子结构信息输入到MGCN模型中进行预测;
通过上述机器学习模型预测出分子的性质,作为初步预测结果;
如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合。
一种分子性质预测系统,包括输入模块、预测模块、调度模块和输出模块,其中,
输入模块,负责将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型:RF模型、Bi-LSTM模型、MPNN模型和MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中进行分子性质的预测,输出初步预测结果;其中,RF模型根据分子的分子结构信息、泛函类型和基函数进行预测,Bi-LSTM模型根据独热形式的分子结构信息、泛函类型和基函数进行预测,MPNN模型根据分子结构信息进行预测,MGCN模型根据分子结构信息进行预测;
调度模块,负责将输入信息传递给预测模块,以及对预测模块输出的初步预测结果进行判断,并将得到的最终预测结果传递给输出模块;该判断为:如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合;
输出模块,负责输出分子性质的最终预测结果。
本发明方法的优点在于:在本发明提出的化学多世界阐释的框架下,接收分子结构、基组和泛函等信息作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。
附图说明
图1是智能预测系统的整体架构图。
图2是密度泛函理论下的化学多世界阐释示意图。
图3是RF的模型结构图。
图4是Bi-LSTM的模型结构图。
图5是MPNN的模型结构图。
图6是MGCN的模型结构图。
图7是调度模块的行为流程图。
图8是相似空间策略及超平面策略示意图。
具体实施方式
本发明受到量子力学中的多世界阐释(the many-worlds interpretation,缩写为MWI)的启发,提出密度泛函理论下的化学多世界阐释(the chemical MWI),并与化学信息学、机器学习/人工智能相结合,用以预测不同计算方案(交换关联泛函、基组)组合下的分子性质。
多世界阐释是由普林斯顿大学的Everett Hugh III在1957年提出,他假设所有的孤立系统的演化都遵循薛定谔方程且波函数不会坍塌,而量子的测量只能得到一种结果,也就是说量子处于叠加态。他认为测量与被测量的系统之间有某种关联,称之为相对态;同时其认为测量带来的不是坍塌,而是分裂的世界。1960-1970年代,该理论经由德克萨斯大学的Bryce DeWitt重新提出后,成为物理界的热门话题之一。
在本发明提出的化学多世界阐释中,假定密度泛函理论中需要求解的Kohn-Sham方程、化学分子集等为唯一的起点,不同基组和泛函的组合作为分裂产生不同世界的临界条件。每一个分裂的世界中均包含特定的泛函、基组等密度泛函理论下可计算得到的分子的各种内禀性质,例如分子的波函数、电负性、轨道能级、振子强度、计算机时等任何跟分子有联系的性质特征。
在本发明提出的化学多世界阐释的框架下,本发明进一步提出了结合化学信息学和机器学习/人工智能的分子性质预测方法及系统。本方法及系统接收分子结构、所采用的计算策略(基组和泛函的组合)作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。
本实施例提供一种分子性质预测系统,结合分子性质预测方法实现分子性质的预测,本系统可划分为四个模块:输入模块、预测模块、调度模块、输出模块,系统整体架构如附图1所示,各个模块具体说明如下。
(1)输入模块
该模块负责接收用户输入信息,包括分子结构文件、计算策略(计算方法)、收敛策略(例如准牛顿方法、最陡下降法)、要使用的模型,并将这些信息传递给调度模块。
(2)预测模块
该模块内建四类机器学习/人工智能模型,分别是随机森林+前馈神经网络模型(random forest with feedforward neural networks,简称RF)、带有注意力机制的双向长短期记忆网络模型(bidirectional long short term memory with attention,简称Bi-LSTM)、消息传递神经网络模型(message passing neural network,简称MPNN)、多级图卷积神经网络模型(multi-level graph convolutional neural network,简称MGCN),根据需要选择哪一种或几种模型。这四种模型经过训练后,可以根据分子结构、基函数数目预测相应分子的各类性质。
四种模型的原理如下所述:
a)RF模型的结构如图3所示,其计算过程可分为输入、预处理、分类、拟合、输出五阶段。在输入阶段,模型接收分子的SMILES编码、泛函类型、基函数(标记为x)。在预处理阶段,基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,将这些信息拼接成一个表示分子结构特征的向量,并送入随即森林分类器。在分类阶段,随机森林分类器会给出输入的分子结构分别属于五种典型结构(线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构)的概率(分别记为PL,PD,PR,PA,PP)。在拟合阶段,使用预训练的五个前馈神经网络模型(分别对应五种典型结构)基于基函数数目分别预测出性质参数(记为fL(x),fD(x),fR(x),fA(x),fP(x))。最后,模型输出的预测结果是各个子模块预测性质的叠加。例如对于线性的性质,该模型可以表示为
y=PL fL(x)+PDfD(x)+PRfR(x)+PAfA(x)+PPfP(x)
b)Bi-LSTM模型的结构如图4所示,可分为五个层次。首先是输入层,该层接收独热(one-hot)形式的SMILES编码、泛函类型、基函数(标记为x)作为输入,SMILES编码被送入词嵌入(Word Embedding)层。在词嵌入层,使用word2vec算法预训练一个权重矩阵(称为词嵌入,记为W),利用词嵌入将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层(一层前向LSTM层,一层后向LSTM层)。双向LSTM层提取出SMILES中包含的高级结构特征,得到前向和后向两个输出向量(记为Hf和Hb)。接下来是Attention层,该层接收LSTM层输出向量之和作为输入(记为H,H=Hf+Hb),Attention层的输出记为向量c,
c=HaT
a=softmax(wTtanh(H))
最后是输出层,将Attention层的输出c和基函数x一起送入全连接网络进行拟合,得到最终的性质预测结果。
c)MPNN模型的结构如图5所示,其计算过程可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为xv)集合和边向量(evw)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型。在预处理阶段xv通过一层网络(称为“顶点网络”)被转化为n×d维的矩阵(称为“点嵌入”),其中n是顶点数目,d是顶点网络隐藏层节点的维度。消息传递阶段对点嵌入执行T次卷积操作,第t次的卷积操作由消息函数Mt和顶点更新函数Ut来定义,顶点v的隐状态由“消息”来更新。因此,消息传递阶段所执行的操作可以归纳为:
其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个网络(称为“边网络”),evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵(称为“边嵌入”)。顶点更新函数Ut的具体形式是门控循环单元(gated recurrent unit,GRU)。在读出阶段,利用读出函数(readout function)R来得到图G的高层特征表示
d)MGCN模型的结构如图6所示,其计算过程亦可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为a0)集合和边向量(e)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长。在预处理阶段,由嵌入层将顶点向量集合和边向量集合转化为顶点嵌入以及边嵌入同时,径向基函数(radial basis function,RBF)层将键长转化为距离张量D的分量dij代表原子i和j之间的距离。在消息传递阶段,交互层(interaction layer)被构建为层级结构的形式,目的是模拟原子之间的量子相互作用,记第l层交互层输出的边状态为顶点状态为则:
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,hv是顶点状态更新函数,he的具体形式为:
其中,v为图中表示原子的顶点,u为作为辅助的高斯径向基(Radial BasisFunction)里面的点,是用来辅助表示空间性质的参量;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项,优化时b会被自动调整。之后,将T个交互层的输出与初始的顶点状态拼接起来,得到向量ai。之后,再读出阶段产生图G的高层特征表示g:
式中,r表示MGCN模型最后的readout层里的权重矩阵,在模型训练过程中会自动优化;σ代表softplus函数,为激活函数。在输出阶段,将高层特征表示g和基函数数目一起送入全连接网络进行拟合,得到分子性质的预测结果。
(3)调度模块
该模块主要负责与预测模块的机器学习/人工智能模型库进行交互,其行为视输入模块传递而来的用户输入信息而定。为便于说明,将一个给定结构的分子在确定了计算策略后所具有的状态集合称为一个“结果空间”,每一个结果空间对应于一种性质计算方案,即特定的收敛策略、特定的泛函以及基组的组合。选取若干种收敛策略、泛函和基组的组合,针对每种组合训练若干种机器学习模型,并封装于预测模块中。将已选的泛函和基组的组合对应的结果空间称为“已知空间”,将已知空间之外的结果空间称为“未知空间”。
调度模块的行为可如下所述:
1)若输入信息中泛函和基组信息属于已知空间,则调度模块直接将输入信息传递给机器学习模型库中相应的模型,模型接收根据输入信息进行推断,并将预测结果返回给调度模块,调度模块将预测结果传递给输出模块。
2)若输入信息中泛函和基组信息属于未知空间,则调度模块将采用近似策略推断分子的性质预测结果。近似策略分为两类:
a)相似空间策略
这种处理方式基于基组相似性或泛函相似性,比较适用于输入分子采用的基组、泛函其一已知(“已知”指基组或泛函包含于已知空间中),另一未知的情况。此处的基组相似性是指两个基组虽然类型不同,但是基函数数目相同。泛函相似性是指两个泛函属于同一类别的情形。对于给定的输入分子,如果其基组已知、泛函未知,则必定可以在已知空间中找出与其基组相同、泛函相似的空间,此时调度模块从预测模块中调用相应模型得到预测结果,并将结果传递给输出模块。
b)超平面(拟合)策略
这种策略对应于输入分子采用的基组、泛函未知的情况。由于同种分子可以作为纽带分子将不同的化学世界连接起来,纽带分子构成的空间即为超平面。在超平面内,可以使用简单拟合或者如前所述的机器学习的方法推导出同一分子的性质特征在不同结果空间里面的渐变关系。经由多个纽带分子,可以平均出较为普适的分子性质特征在不同结果空间里面的渐变关系。在渐变关系已知的基础上,可以通过少数内置的上述模型的数据,推断出任意结果空间内待预测分子的性质特征。
(4)输出模块
输出模块接收调度模块传来的预测结果,并将结果输出。
本实施例的分子性质预测系统采用python语言实现,系统支持SDF格式的分子文件作为输入,借助RDkit模块。本系统基于SDF格式的分子文件构建python支持的对象类型。此外,在输入时还需指定分子采用的泛函和基组类型。基组类型确定后,系统借助“BasisSet Exchange”量子化学数据库提供的信息计算相应的基函数数目。其中RF模型的随机森林分类器使用scikit-learn模块实现,五种前馈神经网络使用TensorFlow深度学习框架实现。Bi-LSTM、MPNN和MGCN模型全部使用PyTorch深度学习框架实现。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。
Claims (10)
1.一种分子性质预测方法,其特征在于,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;
将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中进行分子性质的预测,包括:
将分子的分子结构信息、泛函类型和基函数输入到RF模型中进行预测;
将独热形式的分子结构信息、泛函类型和基函数输入到Bi-LSTM模型中进行预测;
将分子结构信息输入到MPNN模型中进行预测;
将分子结构信息输入到MGCN模型中进行预测;
通过上述机器学习模型预测出分子的性质,作为初步预测结果;
如果输入信息中的泛函和基组属于已知空间,该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果。
2.如权利要求1所述的方法,其特征在于,分子结构信息包括SMILES编码。
3.如权利要求2所述的方法,其特征在于,RF模型预测分子性质的步骤包括:
接收分子的SMILES编码、泛函类型、基函数;
基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,并拼接成一个表示分子结构特征的向量,送入随即森林分类器;
随机森林分类器给出输入的分子结构分别属于线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构这五种典型结构的概率;
基于基函数数目,利用预训练的分别对应五种典型结构的五个前馈神经网络模型,分别预测出分子性质参数;
将五个模型预测出的分子性质参数进行叠加,得到预测的分子性质。
4.如权利要求2所述的方法,其特征在于,Bi-LSTM模型预测分子性质的步骤包括:
接收独热形式的SMILES编码、泛函类型、基函数;
利用word2vec算法预训练一个权重矩阵,利用该矩阵将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层;
通过双向LSTM层提取出SMILES中包含的结构特征,得到前向和后向两个输出向量;
通过Attention层将双向LSTM层的两个输出向量之和作为输入,经过处理输出新的向量;
将新的向量和基函数送入全连接网络进行拟合,得到预测的分子性质。
5.如权利要求1所述的方法,其特征在于,MPNN模型预测分子性质的步骤包括:
根据分子结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型;
顶点向量通过一层顶点网络进行点嵌入,转化为n×d维的矩阵,其中n顶点数目,d是顶点网络隐藏层节点的维度;
对点嵌入执行多次卷积操作,得到图G的高层特征表示;
将高层特征表示和泛函、基函数信息送入全连接网络进行拟合,得到预测的分子性质。
7.如权利要求1所述的方法,其特征在于,MGCN模型预测分子性质的步骤包括:
根据分子结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长;
将顶点向量集合和边向量集合转化为顶点嵌入矩阵和边嵌入矩阵,将键长转化为距离张量,该张量的分量代表原子之间的距离;
利用构建为层级结构的形式的交互层得到图G的高层特征表示;
将高层特征表示和基函数数目送入全连接网络进行拟合,得到预测的分子性质。
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,具体形式为:
其中,hv是顶点状态更新函数,具体形式为:
其中,v为图中表示原子的顶点,u为高斯径向基里面的点;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项;
则图G的高层特征表示g:
其中,r表示MGCN模型最后的readout层里的权重矩阵;σ代表softplus函数,为激活函数。
9.如权利要求1所述的方法,其特征在于,近似策略包括两类:相似空间策略和超平面策略;
该相似空间策略为:对于分子的基组或泛函一个已知一个未知的情况,基于基组相似性或泛函相似性,该基组相似性是指两个类型不同的基组的基函数数目相同,该泛函相似性是指两个泛函属于同一类别,对于给定的输入分子,如果其基组已知、泛函未知,则可在已知空间中找出与其基组相同、泛函相似的空间,则直接调用相应的机器学习模型预测分子的性质;
该超平面策略为:对于分子的基组和泛函都未知的情况,由同种分子作为纽带分子构成超平面空间,在超平面内使用简单拟合或者机器学习的方法推导出同一分子的性质特征在不同结果空间里面的渐变关系;通过多个纽带分子平均出最为普适的分子性质特征在不同结果空间里面的渐变关系;基于该渐变关系,通过机器学习模型数据,推断出任意结果空间内待预测分子的性质。
10.一种分子性质预测系统,其特征在于,包括:
输入模块,负责将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中进行分子性质的预测,输出初步预测结果;其中,RF模型根据分子的分子结构信息、泛函类型和基函数进行预测,Bi-LSTM模型根据独热形式的分子结构信息、泛函类型和基函数进行预测,MPNN模型根据分子结构信息进行预测,MGCN模型根据分子结构信息进行预测;
调度模块,负责将输入信息传递给预测模块,以及对预测模块输出的初步预测结果进行判断,并将得到的最终预测结果传递给输出模块;该判断为:如果输入信息中的泛函和基组属于已知空间,该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;
输出模块,负责输出分子性质的最终预测结果。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010403158.9A CN111710375B (zh) | 2020-05-13 | 2020-05-13 | 一种分子性质预测方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010403158.9A CN111710375B (zh) | 2020-05-13 | 2020-05-13 | 一种分子性质预测方法及系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111710375A true CN111710375A (zh) | 2020-09-25 |
| CN111710375B CN111710375B (zh) | 2023-07-04 |
Family
ID=72537388
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010403158.9A Active CN111710375B (zh) | 2020-05-13 | 2020-05-13 | 一种分子性质预测方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111710375B (zh) |
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112147473A (zh) * | 2020-09-28 | 2020-12-29 | 哈尔滨理工大学 | 一种高绝缘强度气体的筛选方法 |
| CN112162182A (zh) * | 2020-09-28 | 2021-01-01 | 哈尔滨理工大学 | 一种基于神经网络的气体介电强度预测方法 |
| CN112634992A (zh) * | 2020-12-29 | 2021-04-09 | 上海商汤智能科技有限公司 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
| CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
| CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
| CN113299354A (zh) * | 2021-05-14 | 2021-08-24 | 中山大学 | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 |
| CN113707213A (zh) * | 2021-09-08 | 2021-11-26 | 上海交通大学 | 基于深度学习的蛋白质-配体结合位点预测方法 |
| CN114093435A (zh) * | 2021-10-21 | 2022-02-25 | 深圳阿尔法分子科技有限责任公司 | 一种基于深度学习的化学分子相关水溶性预测方法 |
| CN114334036A (zh) * | 2021-11-25 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置、设备以及存储介质 |
| CN114694769A (zh) * | 2022-03-28 | 2022-07-01 | 北京百度网讯科技有限公司 | 分子表示方法、分子表示模型的训练方法及装置 |
| CN114758729A (zh) * | 2021-01-11 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 属性预测模型的训练方法、属性预测方法、装置及设备 |
| CN114842920A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种分子性质预测方法、装置、存储介质和电子设备 |
| CN115171807A (zh) * | 2022-09-07 | 2022-10-11 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
| CN115862751A (zh) * | 2023-02-16 | 2023-03-28 | 泉州装备制造研究所 | 基于边特征更新聚合注意力机制的量子化学性质计算方法 |
| CN115859597A (zh) * | 2022-11-24 | 2023-03-28 | 中国科学技术大学 | 基于杂化泛函和第一性原理的分子动力学模拟方法和系统 |
| CN115881247A (zh) * | 2022-12-06 | 2023-03-31 | 中国科学技术大学 | 一种大规模量子化学的可视化系统 |
| WO2023065220A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳阿尔法分子科技有限责任公司 | 一种基于深度学习的化学分子相关水溶性预测方法 |
| CN117877611A (zh) * | 2022-09-30 | 2024-04-12 | 本源量子计算科技(合肥)股份有限公司 | 一种预测分子性质的方法及装置 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9373059B1 (en) * | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
| US20180172667A1 (en) * | 2015-06-17 | 2018-06-21 | Uti Limited Partnership | Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms |
| JP2019020791A (ja) * | 2017-07-12 | 2019-02-07 | 国立大学法人岐阜大学 | 毒性予測方法及びその利用 |
| WO2019048965A1 (ja) * | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
| CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
| US20190272468A1 (en) * | 2018-03-05 | 2019-09-05 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation |
| CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
| CN110600085A (zh) * | 2019-06-01 | 2019-12-20 | 重庆大学 | 一种基于Tree-LSTM的有机物物理化学性质预测方法 |
-
2020
- 2020-05-13 CN CN202010403158.9A patent/CN111710375B/zh active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9373059B1 (en) * | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
| US20180172667A1 (en) * | 2015-06-17 | 2018-06-21 | Uti Limited Partnership | Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms |
| JP2019020791A (ja) * | 2017-07-12 | 2019-02-07 | 国立大学法人岐阜大学 | 毒性予測方法及びその利用 |
| WO2019048965A1 (ja) * | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
| US20190272468A1 (en) * | 2018-03-05 | 2019-09-05 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation |
| CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
| CN110600085A (zh) * | 2019-06-01 | 2019-12-20 | 重庆大学 | 一种基于Tree-LSTM的有机物物理化学性质预测方法 |
| CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
Non-Patent Citations (5)
| Title |
|---|
| SHENG WANG 等: "SMILES-BERT: Large Scale Unsupervised Pre-Training for Molecular Property Prediction" * |
| 张利娟: "基于密度泛函理论的多取代苯胺混凝土钢筋阻锈剂缓蚀效率预测" * |
| 王晓东: "基于图数据挖掘的化合物性质预测方法研究" * |
| 王正国: "机器学习方法用于选择性环氧化酶-2抑制剂活性预测模型的建立" * |
| 王金莲 等: "基于基因表达谱的白血病分子预测模型研究" * |
Cited By (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112162182A (zh) * | 2020-09-28 | 2021-01-01 | 哈尔滨理工大学 | 一种基于神经网络的气体介电强度预测方法 |
| CN112147473A (zh) * | 2020-09-28 | 2020-12-29 | 哈尔滨理工大学 | 一种高绝缘强度气体的筛选方法 |
| CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
| WO2022135121A1 (zh) * | 2020-12-25 | 2022-06-30 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
| CN112634992A (zh) * | 2020-12-29 | 2021-04-09 | 上海商汤智能科技有限公司 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
| CN114758729A (zh) * | 2021-01-11 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 属性预测模型的训练方法、属性预测方法、装置及设备 |
| CN114842920A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种分子性质预测方法、装置、存储介质和电子设备 |
| CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
| CN113241128B (zh) * | 2021-04-29 | 2022-05-13 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
| CN113299354A (zh) * | 2021-05-14 | 2021-08-24 | 中山大学 | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 |
| CN113299354B (zh) * | 2021-05-14 | 2023-06-30 | 中山大学 | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 |
| CN113707213A (zh) * | 2021-09-08 | 2021-11-26 | 上海交通大学 | 基于深度学习的蛋白质-配体结合位点预测方法 |
| CN113707213B (zh) * | 2021-09-08 | 2024-03-08 | 上海交通大学 | 基于对比图神经网络的蛋白质结构快速分类方法 |
| WO2023065220A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳阿尔法分子科技有限责任公司 | 一种基于深度学习的化学分子相关水溶性预测方法 |
| CN114093435A (zh) * | 2021-10-21 | 2022-02-25 | 深圳阿尔法分子科技有限责任公司 | 一种基于深度学习的化学分子相关水溶性预测方法 |
| CN114334036A (zh) * | 2021-11-25 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置、设备以及存储介质 |
| CN114334036B (zh) * | 2021-11-25 | 2025-11-14 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置、设备以及存储介质 |
| CN114694769A (zh) * | 2022-03-28 | 2022-07-01 | 北京百度网讯科技有限公司 | 分子表示方法、分子表示模型的训练方法及装置 |
| CN115171807A (zh) * | 2022-09-07 | 2022-10-11 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
| CN115171807B (zh) * | 2022-09-07 | 2022-12-06 | 合肥机数量子科技有限公司 | 一种分子编码模型训练方法、分子编码方法和系统 |
| CN117877611A (zh) * | 2022-09-30 | 2024-04-12 | 本源量子计算科技(合肥)股份有限公司 | 一种预测分子性质的方法及装置 |
| CN115859597B (zh) * | 2022-11-24 | 2023-07-14 | 中国科学技术大学 | 基于杂化泛函和第一性原理的分子动力学模拟方法和系统 |
| CN115859597A (zh) * | 2022-11-24 | 2023-03-28 | 中国科学技术大学 | 基于杂化泛函和第一性原理的分子动力学模拟方法和系统 |
| CN115881247A (zh) * | 2022-12-06 | 2023-03-31 | 中国科学技术大学 | 一种大规模量子化学的可视化系统 |
| CN115881247B (zh) * | 2022-12-06 | 2025-06-20 | 中国科学技术大学 | 一种大规模量子化学的可视化系统 |
| CN115862751A (zh) * | 2023-02-16 | 2023-03-28 | 泉州装备制造研究所 | 基于边特征更新聚合注意力机制的量子化学性质计算方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111710375B (zh) | 2023-07-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111710375B (zh) | 一种分子性质预测方法及系统 | |
| JP7733438B2 (ja) | マシンラーニングシステム及び方法 | |
| Shukla | Neuro-genetic prediction of software development effort | |
| CN115240786B (zh) | 反应物分子的预测方法、训练方法、装置以及电子设备 | |
| CN115104105A (zh) | 用于图到序列模型方法的对抗性自动编码器架构 | |
| US12026624B2 (en) | System and method for loss function metalearning for faster, more accurate training, and smaller datasets | |
| Shams et al. | Why are generative adversarial networks vital for deep neural networks? A case study on COVID-19 chest X-ray images | |
| JPWO2019229931A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
| CN113723462B (zh) | 危险品检测方法、装置、计算机设备和存储介质 | |
| CN111710376A (zh) | 大分子及团簇体系分块计算负载均衡方法及系统 | |
| Varshitha et al. | Natural language processing using convolutional neural network | |
| CN117877608B (zh) | 基于经验网络的蒙特卡洛树搜索逆合成规划方法及装置 | |
| Salazar et al. | Deep-learning for volcanic seismic events classification | |
| WO2022063076A1 (zh) | 对抗样本的识别方法及装置 | |
| Khumprom et al. | A hybrid evolutionary cnn-lstm model for prognostics of c-mapss aircraft dataset | |
| CN114417172B (zh) | 一种深度兴趣进化推荐方法、装置、设备和存储介质 | |
| CN115935256A (zh) | 基于语义引导的多层结构的半监督节点分类方法 | |
| CN117874360A (zh) | 一种基于图优化和可控生成的可解释性推荐方法及系统 | |
| Zhu et al. | Fast Adaptive Character Animation Synthesis Based on Greedy Algorithm | |
| CN116266819A (zh) | 异常用户检测方法、装置、设备以及计算机存储介质 | |
| Wu | Evaluation model of product shape design scheme based on fuzzy genetic algorithm mining spatial association rules | |
| CN118197470B (zh) | 一种基于改进图神经网络的表面催化剂吸附能预测方法 | |
| KR102836906B1 (ko) | 결정 구조 기술 데이터로부터 재료의 물성을 추정하는 방법 및 장치 | |
| Al Hamadani et al. | Improvement of Network Traffic Prediction in Beyond 5G Network using Sparse Decomposition and BiLSTM Neural Network | |
| Jihane et al. | Advancing Healthcare Diagnostics with a Hybrid AI Model |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |