[go: up one dir, main page]

CN116504302B - 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法 - Google Patents

基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法 Download PDF

Info

Publication number
CN116504302B
CN116504302B CN202310736846.0A CN202310736846A CN116504302B CN 116504302 B CN116504302 B CN 116504302B CN 202310736846 A CN202310736846 A CN 202310736846A CN 116504302 B CN116504302 B CN 116504302B
Authority
CN
China
Prior art keywords
hbv
capsid
capsid protein
hepatitis
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310736846.0A
Other languages
English (en)
Other versions
CN116504302A (zh
Inventor
克里斯托夫布奇
熊有金
王毅庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310736846.0A priority Critical patent/CN116504302B/zh
Publication of CN116504302A publication Critical patent/CN116504302A/zh
Application granted granted Critical
Publication of CN116504302B publication Critical patent/CN116504302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明公开了基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,包括以下步骤:预测HBV全长野生型核心衣壳蛋白二聚体结构;使用预训练的GENTRL生成模型生成候选小分子数据库;利用类药五原则结合结构相似性进行骨架跃迁筛选;筛选结合模式优异的小分子;计算小分子与HBV衣壳蛋白的结合自由能,筛选具有抗HBV活性的衣壳组装调节剂。本发明通过骨架跃迁、分子对接和基于分子动力学模拟的衣壳蛋白稳定性分析,筛选有效的信息HBV衣壳组装调节剂,有效生成了新的分子,增加了候选分子化学空间分布,通过CTD稳定性分析,能够更精准的捕捉潜在的衣壳组装调节剂,显著加速先导化合物的发现速度。

Description

基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从 头设计与虚拟筛选方法
技术领域
本发明涉及先导化合物虚拟筛选领域,具体来说,涉及基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法。
背景技术
慢性乙型肝炎病毒(Hepatitis B virus,HBV)是一种传染性病毒,全球大约有3亿HBV携带者,每年有100万人死于因HBV感染引发的肝硬化、肝细胞癌及其并发症。现有的已上市的抗HBV药物主要为干扰素和核苷类似物,干扰素作用于转录过程,核苷类似物作用于逆转录过过程。这两种药物均无法根除细胞内的cccDNA,因此需要长期用药,且干扰素价格昂贵且有副作用,核苷类似物易发生耐药性,HBV感染的预后质量不甚理想,亟待开发新型抗HBV药物。
HBV衣壳核心蛋白单体是由183个氨基酸组成的,包含两个不同的结构域,残基1-149为氮端结构域,即NTD,150-183为碳端结构域,即CTD,CTD十分灵活,在HBV生命周期中发挥多种作用。CTD的有许多精氨酸富集的区域,这些精氨酸结构域能与RNA相互作用,启动衣壳的组装,现有的衣壳蛋白结构在CTD是部分缺失的,从未有人探究过全长蛋白与CAMs的作用机制。
目前已有研究表明,作为新型的抗HBV药物,衣壳组装调节剂(Capsid AssemblyModulator,CAMs)作用于衣壳蛋白,促进衣壳组装或使衣壳异常组装,当病毒进入细胞后,可在病毒到细胞核或者衣壳组装的过程,加速衣壳组装,使DNA暴露在细胞液中被酶降解,这为根除细胞内cccDNA提供了可能,从而根治乙型肝炎。
虚拟筛选是一种结合结构生物学和计算化学的加速先导化合物的筛选手段,其基于配体结构和受体结构的药物设计指导思想,可基于现有小分子数据和蛋白结构,加速目标活性分子的筛选和发现。在现有技术中,CAMs的发现依靠已知骨架的衍生变换,速度缓慢。预测小分子与衣壳蛋白之间的结合模式主要以缺失CTD的衣壳蛋白结构和小分子进行分子对接,虽然结合位点明确,但是小分子与衣壳蛋白作用机制尚不清晰,且对接分数和小分子活性之间无相关性。因此现有技术对筛选CAMs的能力有限,没有统一明确的筛选标准,因此构建一种全新的潜在抗HBV药物的虚拟筛选方法具有重大意义。
发明内容
针对相关技术中的问题,本发明提出基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,基于CAMs与HBV衣壳蛋白作用的新机制,使用GENTRL分子生成模型学习现有目标分子的特性,生成具有目标属性的候选小分子数据库,通过骨架跃迁、分子对接、分子动力学模拟和自由能计算实现新型CAMs的从头设计与虚拟筛选,可以有效地克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,该方法包括以下步骤:
S1、全长乙肝衣壳蛋白结构的构建:获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列,并预测HBV全长野生型核心衣壳蛋白二聚体结构;
S2、候选小分子数据库的生成和构建:利用获取的训练化合物集训练GENTRL生成模型,并使用预训练的GENTRL生成模型生成候选小分子数据库;
S3、骨架跃迁模型的构建和筛选:利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子与目标分子欧几里得距离,并根据结构相似性进行骨架跃迁筛选;
S4、基于分子对接的活性筛选和结合模式预测:利用分子对接软件对小分子与HBV衣壳蛋白进行对接,并预测小分子与HBV衣壳蛋白的结合模式,筛选结合模式优异的小分子;
S5、基于分子动力学模拟构效关系的预测和筛选:利用分子动力学模拟软件结合轨迹分析包分析小分子对HBV衣壳蛋白碳端结构域的稳定性,构建构效关系模型,预测小分子EC50,并计算小分子与HBV衣壳蛋白的结合自由能,筛选具有抗HBV活性的衣壳组装调节剂。
作为优选地,所述获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列,并预测HBV全长野生型核心衣壳蛋白二聚体结构包括以下步骤:
S11、从NCBI生物信息数据库中获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列;
S12、使用Alpha Fold2的同源多聚体预测模型预测HBV全长野生型核心衣壳蛋白二聚体结构,并进行能量最优化。
作为优选地,所述训练化合物集基于ChEMBL和ZINC数据库获取;
所述训练化合物集中的训练数据包括HBV衣壳组装调节剂、普通衣壳调节剂和ZINC随机分子的拓展连通性指纹;
所述GENTRL生成模型的训练包括变分自编码器、隐空间概率分布、生成器和基于SVM分类算法的奖励函数。
所述针对HBV的衣壳组装调节剂与普通衣壳调节剂分子活性阈值设为10000nM,ZINC随机分子的分子量与脂水分配系数分布与衣壳组装调节剂一致,拓展连通性指纹选择半径为2,位数为2048的摩根指纹。
作为优选地,所述利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子与目标分子欧几里得距离,并根据结构相似性进行骨架跃迁筛选包括以下步骤:
S31、利用利宾斯基类药五原则对候选小分子数据库进行初步筛选,并使用RDKit和OPENBABEL为小分子生成3D结构;
S32、使用WHALES计算小分子3D描述符,获得每个数据库分子与目标化合物的欧几里得距离,并根据欧几里得距离排序进行骨架跃迁。
作为优选地,所述利用分子对接软件对小分子与HBV衣壳蛋白进行对接包括:
使用Alpha Fold2预测的HBV全长野生型核心衣壳蛋白二聚体作为受体结构,使用Chimera和Maestro对受体进行三维结构优化、加氢和计算原子带电荷量等预处理;
使用RDKit和OPENBABEL对小分子配体进行预处理;
所述对接软件为SMINA,根据亲和力为每个小分子进行打分,每个分子生成9种不同的对接姿势,以排名第一的打分作为该分子的对接分数,取打分排名前10种化合物进行后续分子动力学模拟筛选。
本发明还涉及一种全新CAMs与HBV衣壳蛋白相互作用的新机制,所述机制具体为CTD的稳定性是HBV衣壳蛋白组装速率的关键,CAMs可以结合在HBV衣壳蛋白活性位点上,通过稳定HBV衣壳蛋白的CTD,加速HBV衣壳蛋白组装速率,使之形成空白HBV衣壳,从而抑制HBV复制。
作为优选地,所述机制使用已知CAMs,包括AT-130、GLP-26、NVR-3-778、BAY-41-4109和SPA五种小分子进行30ns的分子动力学模拟和轨迹分析进行验证,计算CTD稳定性。
作为优选地,所述利用分子动力学模拟软件结合轨迹分析包分析小分子对HBV衣壳蛋白碳端结构域的稳定性包括以下步骤:
利用CHARMM-GUI准备模拟输入文件,使用基于CHARMM36分子力场与OPENMM软件模拟30ns,生成300帧轨迹文件;
将HBV衣壳蛋白与小分子的相互作用转换为包含3D轨迹的dcd文件,其中,所述dcd文件包含HBV衣壳蛋白与配体中每个原子模拟过程中300帧的位置;
通过MDtraj读取dcd文件计算HBV衣壳蛋白碳端结构域的稳定性指标,其中,所述稳定性指标为RMSF和残基150-183的RMSD:
式中,N为原子总数,为当前帧第i个原子与目标帧第i个原子迪卡尔坐标位置偏移量的平方和,包括X轴、Y轴与Z轴位置偏移量的平方和,T为模拟总时长,/>为原子在tj时刻的笛卡尔坐标,/>为原子在初始时刻的笛卡尔坐标。
作为优选地,所述稳定性的计算依据基于前期大量的HBV衣壳蛋白结合已知CAMs的分子动力学模拟体系,发现CAMs与HBV衣壳蛋白作用的新机制,且所述新机制为CAMs通过稳定HBV衣壳蛋白碳端结构域而加速衣壳组装。
作为优选地,所述构效关系模型使用无配体蛋白模拟体系的碳端结构域RMSD与结合小分子配体蛋白模拟体系的碳端结构域RMSD进行t-检验,计算p-value,通过p-value预测小分子EC50:
式中,和/>是两个样本RMSD的均值,m和n是两个数据集的大小,/>和/>是两个数据集的方差的无偏估计,通过公式计算得到t,使用t检验表格计算得到P值,选择t检验P值小于0.05的分子进入后续自由能计算步骤。
作为优选地,所述结合自由能的计算基于模拟产生的dcd文件和模拟输入文件,使用Parmed和AMBER计算小分子配体与HBV衣壳蛋白的结合自由能,与已知衣壳组装调节剂的结合自由能进行比较,筛选最终的先导化合物进行生物学活性验证。
其中,结合自由能的计算方程为:
式中,:溶剂体系蛋白受体-配体结合自由能;
:真空体系蛋白受体-配体结合自由能;
:溶剂体系蛋白-配体复合物溶剂化自由能;
:溶剂体系配体溶剂化自由能;
:溶剂体系蛋白受体溶剂化自由能。
作为优选地,所述结合自由能与已知衣壳组装调节剂GLP-26的结合自由能进行比较,筛选最终的先导化合物进行生物学活性验证。
本发明的有益效果为:通过构建从头设计筛选方法以现有小分子数据为基础,使用GENTRL模型生成新的从未出现过的小分子候选数据集,通过骨架跃迁、分子对接和基于分子动力学模拟的衣壳蛋白稳定性分析,筛选有效的信息HBV衣壳组装调节剂。该方法有效生成了新的分子,增加了候选分子化学空间分布,通过CTD稳定性分析,能够更精准的捕捉潜在的衣壳组装调节剂,显著加速先导化合物的发现速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法的流程图;
图2是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法的原理示意图;
图3是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中全长野生型HBV衣壳蛋白结构示意图;
图4是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中GENTRL生成模型结构图;
图5是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中骨架跃迁流程图;
图6是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中CAMs与HBV衣壳蛋白新机制的可视化展示图;
图7是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中分子动力学模拟方法流程图;
图8是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中CTD稳定性计算示意图;
图9是根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法中由能计算方法流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-图9所示,根据本发明实施例的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,该方法包括以下步骤:
S1、全长乙肝衣壳蛋白结构的构建:获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列,并预测HBV全长野生型核心衣壳蛋白二聚体结构,具体包括以下步骤:
S11、从NCBI生物信息数据库中获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列;
S12、使用Alpha Fold2的同源多聚体预测模型预测HBV全长野生型核心衣壳蛋白二聚体结构,并进行能量最优化;
其中,HBV衣壳蛋白是HBV结构的关键组成成分,HBV衣壳是一个大约22nm大小的20面体,每条核心蛋白单体由183个氨基酸组组成,共分为两个结构域,即氮端结构域(NTD):1-149;碳端结构域(CTD):150-183。目前已被解析的HBV衣壳蛋白仅包含1-155号氨基酸。
使用Alpha Fold2的multimer model模型,输入两条单体氨基酸序列,模型的multimer_model_max_num_recycles参数设置为3,随后执行模型,模型输出后选取排名第一的模型结果,构建的全长HBV衣壳蛋白结果如图3所示。
S2、候选小分子数据库的生成和构建:利用获取的训练化合物集训练GENTRL生成模型,并使用预训练的GENTRL生成模型生成候选小分子数据库;
所述训练化合物集中的训练数据包括HBV衣壳组装调节剂、普通衣壳调节剂和ZINC随机分子的拓展连通性指纹;所述GENTRL生成模型的训练包括变分自编码器、隐空间概率分布、生成器和基于SVM分类算法的奖励函数。所述针对HBV的衣壳组装调节剂与普通衣壳调节剂分子活性阈值设为10000nM,ZINC随机分子的分子量与脂水分配系数分布与衣壳组装调节剂一致,拓展连通性指纹选择半径为2,位数为2048的摩根指纹。
为了生成现实中不存在的新型小分子结构,并保证这些小分子具有与目标分析相类似的性质,本发明设计了一种分子生成算法模型,模型结构如图4所示。
其中训练数据的获取为从ChEMBL数据库收集已知的针对HBV衣壳的组装调节剂为训练数据1,普通衣壳组装调节剂作为训练数据2。随后使用RDKit计算数据集1的分子量和脂水分配系数系数的均值,使用该均值从ZINC数据集上筛选10万个符合该均值分布的随机分子作为训练数据3。所有的三个数据集都被移除了含有碳、氮、氧、硫、氟、氯、溴和氢以外的原子的结构,并使用常规的药物化学过滤器MCF和Pains用于排除具有潜在毒性和反应基团的化合物,然后对所有数据集中的分子进行了统一SMILES标准化,使得所有分子以相同的SMILES编码方向生成。
接下来,在上述三个数据集上训练一个变分自编码器和一个先验分布脂水分配系数(logp)和合成难易度系数(SAscore)是判断分子有无类药性的重要分子性质,在药物发现、农用化学品发现等领域都十分重要,因此本模型中的分子性质我们选择使用含有惩罚项的脂水分配系数(Penalized logp),其计算公式如下:
其中rings6是对分子碳环中原子数超过6的分子进行“惩罚”,避免无差异地生成不切实际的大环。第一步先训练ZINC分子数据集,让模型学习到常规子的特征;第二步同时训练数据集1和数据集2,使模型可以学习到专属的目标特征。通过对该模型进行训练,得到了从化学空间到隐空间的映射关系。这一映射关系也联系了分子及其性质之间的关系。
本实施例对优化前后的模型分别从训练得到的隐空间中进行50000次随机采样,移除了含有碳、氮、氧、硫、氟、氯、溴和氢以外的原子的结构,并用常规的药物化学过滤器MCF何Pains用于排除具有潜在毒性和反应基团的化合物,得到候选小分子数据集。
S3、骨架跃迁模型的构建和筛选:利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子(即候选小分子数据库中的分子)与目标分子(即已知的衣壳组装调节剂AT-130)欧几里得距离,并根据结构相似性进行骨架跃迁筛选;
其中,所述利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子与目标分子欧几里得距离,并根据结构相似性进行骨架跃迁筛选包括以下步骤:
S31、利用利宾斯基类药五原则对候选小分子数据库进行初步筛选,并使用RDKit和OPENBABEL为小分子生成3D结构;
S32、使用WHALES计算小分子3D描述符,获得每个数据库分子与目标化合物的欧几里得距离,并根据欧几里得距离排序进行骨架跃迁。
骨架跃迁模型的流程如图5所示,在骨架跃迁之前,本发明使用RDKit计算候选小分子的氢键供体、氢键受体、分子量、分子内可选择键术和脂水分配系数。
优选的,类药五原则筛选阈值为氢键供体小于等于5、氢键受体小于等于10、分子量小于等于500Da、分子内可旋转键数小于等于10和脂水分配系数小于等于5。
可选的,构建骨架跃迁模型时,需要为每个分子建立3D结构模型,本发明使用RDKit包和OPENBABEL为通过类药物原则筛选的分子生成其三维结构,使用EmbedMolecule函数和MMFF994分子力场对三维结构进行优化,随后计算分子中每个原子的Gasteiger电荷。使用AT-130为目标分子,使用相同的方式准备AT-130分子的电荷和三维结构。随后使用do_whales模块计算模板目标分子和候选数据库分子的马氏距离和WHALES描述符。
根据目标分子和候选数据库分子的WHALES描述符,本项工作使用欧几里得距离计算模块euclidean_distances计算了两者的欧几里得距离,按照距离由小到大进行排序,挑选排名前20%的化合物进行分子对接筛选。
S4、基于分子对接的活性筛选和结合模式预测:利用分子对接软件对小分子与HBV衣壳蛋白进行对接,并预测小分子与HBV衣壳蛋白的结合模式,筛选结合模式优异的小分子;
其中,所述利用分子对接软件对小分子与HBV衣壳蛋白进行对接包括:
使用Alpha Fold2预测的HBV全长野生型核心衣壳蛋白二聚体作为受体结构,使用Chimera和Maestro对受体进行三维结构优化、加氢和计算原子带电荷量等预处理;使用RDKit和OPENBABEL对小分子配体进行预处理;
所述对接软件为SMINA,根据亲和力为每个小分子进行打分,每个分子生成9种不同的对接姿势,以排名第一的打分作为该分子的对接分数,取打分排名前10种化合物进行后续分子动力学模拟筛选。
优选的,本发明蛋白受体的获取源为Alpha Fold2预测的全长野生型HBV衣壳蛋白结构模型,单体长度为183个氨基酸残基的二聚体结构。对接结合口袋使用PDB ID:5T2P结构中,小分子配体结合的位置进行设定。
蛋白的预处理通过Chimera软件的DockPre模块对蛋白受体进行加氢和加Gasteiger电荷操作,随后使用Minimization模块对蛋白能量进行最小化。小分子受体的预处理通过RDKit的Embeding函数从分子Smiles生成分子的2D结构并进行加氢,maxAttempts参数为100,随机种子是0xf00d,随后用UFF力场将2D结构优化成3D结构,最大迭代次数为1000。使用OPENBABEL对小分子配体加电荷和转换格式。分子对接过程使用Vina和Vina的拓展程序SMINA进行对接,随机种子为0,对接位点选择为原始小分子配体结合位点,exhaustiveness参数为24,根据亲和力为每个小分子进行打分,取打分排名前10种化合物进行后续分子动力学模拟筛选。
S5、基于分子动力学模拟构效关系的预测和筛选:利用分子动力学模拟软件结合轨迹分析包分析小分子对HBV衣壳蛋白碳端结构域的稳定性,构建构效关系模型,预测小分子EC50,并计算小分子与HBV衣壳蛋白的结合自由能,筛选具有抗HBV活性的衣壳组装调节剂。
优选的,本发明分子动力学模拟的输入结构为S4所预测的蛋白-配体复合物,分子动力学模拟步骤如图7所示。分子模拟输入文件的准备由CHARMM-GUI在线服务器的solution builder完成,为每个生物体系创建合适的周期边界和水盒子,水盒子边界设置为距离蛋白边界超过10Å,在水盒子中填充TIP3P水分子溶剂模型,同时加入K+Cl-对体系中多余的电荷进行中和,保持K+Cl-的最终浓度为0.15M。
分子模拟的过程由OPENMM软件完成,非键方法参数为Particle-Mesh Ewald(PME),氢键参数选择constraints,模拟温度选择303.15开尔文,模拟压强选择一个正常大气压。分子模拟的代码完全由Python编程语言书写,使用OPENMM、Pandas、Numpy等Python包书写,首先使用最小化函数对体系进行了能力最小化,随后使用OPENMM完成30ns的非限制性模拟,共15000000步模拟,每50000步截取一个轨迹文件,生成轨迹文件300帧,将蛋白质与小分子的相互作用转换为包含3D轨迹的dcd文件,所述dcd文件包含HBV衣壳蛋白与配体中每个原子模拟过程中300帧的位置,每1000步记录模拟过程中的能量。
优选的,所有由OPENMM模拟生成的分子体系轨迹文件均由Python语言中的MDTraj、MDAnalysis、Pandas、Numpy、Matplotlib等包分析完成,由于周期边界条件的存在,生成的轨迹需要由MDTraj进行结构中心化,使用MDtraj读取dcd文件计算衣壳蛋白碳端结构域的稳定性指标。所述稳定性指标为RMSF和残基150-183的RMSD:
式中,N为原子总数,为当前帧第i个原子与目标帧第i个原子迪卡尔坐标位置偏移量的平方和,包括X轴、Y轴与Z轴位置偏移量的平方和,T为模拟总时长,/>为原子在tj时刻的笛卡尔坐标,/>为原子在初始时刻的笛卡尔坐标。
所有的轨迹都会与初始结构进行叠合并计算其所有原子之间RMSD,同时选取不同氨基酸中的CA原子计算不同氨基酸的RMSF。CTD的RMSD通过计算连续时间性上相邻帧结构之间CTD的RMSD得到,计算过程如图8所示。
优选的,所述的构效关系模型,使用无配体蛋白模拟体系的碳端结构域RMSD与结合小分子配体蛋白模拟体系的碳端结构域RMSD进行t-检验,计算p-value,通过p-value预测小分子EC50:
式中,和/>是两个样本RMSD的均值,m和n是两个数据集的大小,/>和/>是两个数据集的方差的无偏估计,通过公式计算得到t,使用t检验表格计算得到P值,选择t检验P值小于0.05的分子进入后续自由能计算步骤。
优选的,由上述计算得到CTD的稳定性指标,使用图6所示的CAMs与衣壳蛋白作用新机制,对AT-130、GLP-26、NVR-3-778、BAY-41-4109和SPA五种小分子进行30ns的分子动力学模拟和轨迹分析,构建小分子构效关系回归模型,通过回归模型预测候选小分子的EC50。
所述蛋白-配体结合自由能计算流程如图9所示,由CHARMM-GUI生成的psf和crd模拟输入文件出发,使用Parmed转换为模拟体系的prmtop和inpcrd文件。随后指定需要分离的配体残基编号,溶剂与离子残基名,使用ante-MMPBSA生成受体、配体、复合物、溶剂的prmtop和inpcrd文件,最后使用MMPBSA计算脚本计算蛋白受体-配体结合自由能,计算共使用150-300帧的轨迹,计算间隔为2帧。计算得到候选小分子配体-蛋白结合自由能,与GLP26-蛋白结合自由能进行比较,筛选解决目标分子结合自由能的候选小分子成为先导化合物,进行后续生物学实验验证。
其中,结合自由能的计算方程为:
式中,:溶剂体系蛋白受体-配体结合自由能;
:真空体系蛋白受体-配体结合自由能;
:溶剂体系蛋白-配体复合物溶剂化自由能;
:溶剂体系配体溶剂化自由能;
:溶剂体系蛋白受体溶剂化自由能。
综上所述,借助于本发明的上述技术方案,通过GENTRL生成模型和基于骨架跃迁、分子对接、分子动力学模拟、配体-蛋白结合自由能计算的多种定性和定量构效关系分析技术,构建了一种从头设计和虚拟筛选HBV衣壳组装调节剂方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,该方法包括以下步骤:
S1、全长乙肝衣壳蛋白结构的构建:获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列,并预测HBV全长野生型核心衣壳蛋白二聚体结构;
S2、候选小分子数据库的生成和构建:利用获取的训练化合物集训练GENTRL生成模型,并使用预训练的GENTRL生成模型生成候选小分子数据库;
S3、骨架跃迁模型的构建和筛选:利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子与目标分子欧几里得距离,并根据结构相似性进行骨架跃迁筛选;
S4、基于分子对接的活性筛选和结合模式预测:利用分子对接软件对小分子与HBV衣壳蛋白进行对接,并预测小分子与HBV衣壳蛋白的结合模式,筛选结合模式优异的小分子;
S5、基于分子动力学模拟构效关系的预测和筛选:利用分子动力学模拟软件结合轨迹分析包分析小分子对HBV衣壳蛋白碳端结构域的稳定性,构建构效关系模型,预测小分子EC50,并计算小分子与HBV衣壳蛋白的结合自由能,筛选具有抗HBV活性的衣壳组装调节剂。
2.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列,并预测HBV全长野生型核心衣壳蛋白二聚体结构包括以下步骤:
S11、从NCBI生物信息数据库中获取乙肝病毒全长野生型核心衣壳蛋白的氨基酸序列;
S12、使用Alpha Fold2的同源多聚体预测模型预测HBV全长野生型核心衣壳蛋白二聚体结构,并进行能量最优化。
3.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述训练化合物集基于ChEMBL和ZINC数据库获取;
所述训练化合物集中的训练数据包括HBV衣壳组装调节剂、普通衣壳调节剂和ZINC随机分子的拓展连通性指纹;
所述GENTRL生成模型的训练包括变分自编码器、隐空间概率分布、生成器和基于SVM分类算法的奖励函数。
4.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述利用类药五原则对候选小分子数据库进行初步筛选,使用基于WHALES描述符计算数据库分子与目标分子欧几里得距离,并根据结构相似性进行骨架跃迁筛选包括以下步骤:
S31、利用利宾斯基类药五原则对候选小分子数据库进行初步筛选,并使用RDKit和OPENBABEL为小分子生成3D结构;
S32、使用WHALES计算小分子3D描述符,获得每个数据库分子与目标化合物的欧几里得距离,并根据欧几里得距离排序进行骨架跃迁。
5.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述利用分子对接软件对小分子与HBV衣壳蛋白进行对接包括:
使用Alpha Fold2预测的HBV全长野生型核心衣壳蛋白二聚体作为受体结构,使用Chimera和Maestro对受体进行预处理;
使用RDKit和OPENBABEL对小分子配体进行预处理;
所述对接软件为SMINA,根据亲和力为每个小分子进行打分,取打分排名前10种化合物进行后续分子动力学模拟筛选。
6.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述利用分子动力学模拟软件结合轨迹分析包分析小分子对HBV衣壳蛋白碳端结构域的稳定性包括以下步骤:
利用CHARMM-GUI准备模拟输入文件,使用基于CHARMM36分子力场与OPENMM软件模拟30ns,生成300帧轨迹文件;
将HBV衣壳蛋白与小分子的相互作用转换为包含3D轨迹的dcd文件,其中,所述dcd文件包含HBV衣壳蛋白与配体中每个原子模拟过程中300帧的位置;
通过MDtraj读取dcd文件计算HBV衣壳蛋白碳端结构域的稳定性指标,其中,所述稳定性指标为RMSF和残基150-183的RMSD:
式中,N为原子总数,为当前帧第i个原子与目标帧第i个原子迪卡尔坐标位置偏移量的平方和,包括X轴、Y轴与Z轴位置偏移量的平方和,T为模拟总时长,/>为原子在tj时刻的笛卡尔坐标,/>为原子在初始时刻的笛卡尔坐标。
7.根据权利要求6所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述稳定性的计算依据基于前期大量的HBV衣壳蛋白结合已知CAMs的分子动力学模拟体系,发现CAMs与HBV衣壳蛋白作用的新机制,且所述新机制为CAMs通过稳定HBV衣壳蛋白碳端结构域而加速衣壳组装。
8.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述构效关系模型使用无配体蛋白模拟体系的碳端结构域RMSD与结合小分子配体蛋白模拟体系的碳端结构域RMSD进行t-检验,计算p-value,通过p-value预测小分子EC50。
9.根据权利要求1所述的基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法,其特征在于,所述结合自由能的计算基于模拟产生的dcd文件和模拟输入文件,使用Parmed和AMBER计算小分子配体与HBV衣壳蛋白的结合自由能,与已知衣壳组装调节剂的结合自由能进行比较,筛选最终的先导化合物进行生物学活性验证。
CN202310736846.0A 2023-06-21 2023-06-21 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法 Active CN116504302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310736846.0A CN116504302B (zh) 2023-06-21 2023-06-21 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310736846.0A CN116504302B (zh) 2023-06-21 2023-06-21 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法

Publications (2)

Publication Number Publication Date
CN116504302A CN116504302A (zh) 2023-07-28
CN116504302B true CN116504302B (zh) 2023-11-17

Family

ID=87323355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310736846.0A Active CN116504302B (zh) 2023-06-21 2023-06-21 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法

Country Status (1)

Country Link
CN (1) CN116504302B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118335265B (zh) * 2024-06-11 2024-10-15 苏州创腾软件有限公司 基于分子生成模型的电池活性材料选择方法和装置
CN119517174B (zh) * 2024-10-28 2025-11-21 南京大学 基于进化生物学与计算生物的rna进化前体筛选方法
CN119993283B (zh) * 2025-04-15 2025-07-22 电子科技大学长三角研究院(衢州) 基于知识增强语言模型的蛋白质相互作用调节剂预测方法、系统和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020255013A1 (en) * 2019-06-18 2020-12-24 Janssen Sciences Ireland Unlimited Company Combination of hepatitis b virus (hbv) vaccines and capsid assembly modulators being amide derivatives
CN114317832A (zh) * 2022-01-28 2022-04-12 徐州医科大学 一种检测hbv核心蛋白变构调节剂相关耐药位点的方法
CN115282278A (zh) * 2022-07-13 2022-11-04 山东大学 胆固醇调节剂作为抗原递呈促进剂在乙肝治疗中的应用
CN115938488A (zh) * 2022-11-28 2023-04-07 四川大学 基于深度学习和计算模拟的蛋白质变构调节剂的识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9487534B2 (en) * 2011-08-02 2016-11-08 Scripps Research Institute, A Not-For-Profit Public Benefit Corporation Of California Modulators of virus assembly as antiviral agents
WO2020255015A1 (en) * 2019-06-18 2020-12-24 Janssen Sciences Ireland Unlimited Company Combination of hepatitis b virus (hbv) vaccines and dihydropyrimidine derivatives as capsid assembly modulators
US20220370447A1 (en) * 2019-09-20 2022-11-24 Hoffmann-La Roche Inc. Method of treating hbv infection using a core protein allosteric modulator
WO2021178612A1 (en) * 2020-03-05 2021-09-10 Janssen Pharmaceuticals, Inc. Combination therapy for treating hepatitis b virus infection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020255013A1 (en) * 2019-06-18 2020-12-24 Janssen Sciences Ireland Unlimited Company Combination of hepatitis b virus (hbv) vaccines and capsid assembly modulators being amide derivatives
CN114317832A (zh) * 2022-01-28 2022-04-12 徐州医科大学 一种检测hbv核心蛋白变构调节剂相关耐药位点的方法
CN115282278A (zh) * 2022-07-13 2022-11-04 山东大学 胆固醇调节剂作为抗原递呈促进剂在乙肝治疗中的应用
CN115938488A (zh) * 2022-11-28 2023-04-07 四川大学 基于深度学习和计算模拟的蛋白质变构调节剂的识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Current Progress in the Development of Hepatitis B Virus Capsid Assembly Modulators: Chemical Structure, Mode-of-Action and Efficacy;Kim, Hyejin 等;《MOLECULES》;第26卷(第24期);1-19 *
乙型肝炎病毒衣壳蛋白装配调节剂研究进展;杨璐 等;《中国药理学通报》;第35卷(第11期);1481-1487 *

Also Published As

Publication number Publication date
CN116504302A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN116504302B (zh) 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法
Lee et al. Ab initio protein structure prediction
Schlick et al. Biomolecular modeling and simulation: a field coming of age
WO2023134063A1 (zh) 基于对比学习的药物分子性质预测方法、装置及设备
CN103984878B (zh) 一种基于树搜索和片段组装的蛋白质结构预测方法
Danel et al. Docking-based generative approaches in the search for new drug candidates
CN111161810B (zh) 一种基于约束概率分布函数优化的自由能微扰方法
Wang et al. Explore drug-like space with deep generative models
Tao et al. Docking cyclic peptides formed by a disulfide bond through a hierarchical strategy
CN105205351A (zh) 一种药物靶标的高通量检索方法
KR101273732B1 (ko) 3차원 분자정렬을 이용하는 단백질-리간드 도킹 방법
CN118748036A (zh) 一种蛋白质结构的模拟方法和应用
Meng et al. Development of a machine learning‐based target‐specific scoring function for structure‐based binding affinity prediction for human dihydroorotate dehydrogenase inhibitors
Lau Progress and Research Trends of Artificial Intelligence Incorporation in Protein Structure Prediction
Ugurlu Cobdock-2: enhancing blind docking performance through hybrid feature selection combining ensemble and multimodel feature selection approaches: Sy ugurlu
Le Grand The application of the genetic algorithm to protein tertiary structure prediction
Wuyun et al. Alternative Conformation Prediction Using Deep Learning With Multi‐MSA Strategy and Structural Clustering in CASP16
Qi et al. DNMDA: Deep Non-negative Matrix Factorization with Multi-level Integration for MiRNA-Drug Interaction Prediction
Pearce Deep Learning and Physics-Based Methods for Macromolecular Structure Prediction and Design
CN117174164A (zh) 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法
CN116884534A (zh) 基于遗传算法和分子对接模拟的分子优化模型
Guo et al. Advancing Template-Based Flexible Docking of P450-Heme Complexes via JAX MD
Lucas-Randolph Efficient and Scalable Deep Learning Systems for Protein Design
Yuniarta et al. Virtual Screening, ADMET Evaluation, and Molecular Docking Approach in the Discovery of Novel Potential Sweetening Agent
CN119811533A (zh) 一种基于打分函数优化的虚拟筛选方法,用于pak4抑制剂的高效筛选

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant