基于深度学习的蛋白质-小分子配体快速准确对接方法

本发明属于计算机应用,尤其涉及一种基于深度学习的蛋白质-小分子配体快速准确对接方法和系统。
背景技术:
1、分子对接技术是一种重要的计算生物学方法,它通过模拟分子之间的相互作用来预测蛋白质与小分子配体之间的结合姿态和亲和力。这种技术在药物设计、蛋白质功能研究以及生物信息学等领域具有广泛的应用。分子对接方法主要分为刚性对接、半柔性对接和柔性对接三种类型,其中柔性对接由于允许对接过程中研究体系的构象发生自由变化,因此适合精确考察分子间识别情况,但计算量相对较大。在药物设计领域,分子对接技术可以预测药物候选物与靶蛋白的结合模式,为药物发现和设计提供重要指导。通过模拟蛋白质与小分子的相互作用,科学家可以筛选出与特定靶蛋白具有高亲和力的潜在药物分子,从而加速药物研发的进程。虚拟筛选技术作为一种先进的计算方法,其核心价值在于能够高效地从庞大的化合物数据库中筛选出与特定靶蛋白具有生物活性的潜在结合分子。小分子配体对接作为基于结构vs策略的核心组成部分,扮演着至关重要的角色,它不仅涉及蛋白质-小分子配体结合位点的精确构建,还负责预测两者间的结合亲和力,并指导结合位点的选择,从而在整个虚拟筛选流程中发挥着桥梁作用。
2、传统的对接工具诸如autodock 、autodock vina、gold、glide及ledock 等对接软件,依赖启发式搜索策略来遍历并评估众多可能的小分子配体构象,结合精心设计的评分函数,以简化配体姿态的优选与结合强度的估算过程,这种策略显著提升了大规模虚拟筛选任务的执行效率。然而,传统的对接工具和现有的深度学习工具在速度、姿态质量和绑定亲和精度方面会受到限制。特别是当受体需要与数以千计的小分子配体进行对接实验时,这一过程会消耗大量的时间,并且准确性可能不高。深度学习算法如autodock gpu等,它们通过优化算法和利用高性能计算资源,显著提升了虚拟筛选的速度,在预测蛋白质-小分子配体构象方面取得了显著进展,但在绑定亲和度预测的准确性和速度上仍面临挑战。当前模型在复杂体系中的泛化能力有限,且计算成本较高,难以满足大规模虚拟筛选对高效、准确预测的需求。
3、综上所述,传统的对接工具和现有的深度学习工具在速度、姿态质量和绑定亲和精度方面会受到限制,而一个受体往往需要与数以千计的小分子配体之间进行对接的实验,消耗大量的时间,并且准确性不高,因此,持续的技术创新与优化,特别是在模型架构、训练策略及数据处理方法上的改进,对于提升深度学习在药物研发中的应用效果具有至关重要的意义。
技术实现思路
1、针对传统对接与深度学习工具在对接速度、姿态预测精度及绑定亲和度计算上的不足,亟需一种能提升大规模小分子配体与受体对接的效率与准确性从而加速药物研发进程方法的技术现状,本发明旨在于提供一种基于深度学习的蛋白质-小分子配体快速准确对接方法和系统。
2、为了达到上述目的,本发明采用以下技术方案予以实现:
3、本发明提供一种基于深度学习的蛋白质-小分子配体快速准确对接方法,包括:
4、s1,获取蛋白质原始数据和小分子配体原始数据;
5、s2,将小分子配体原始数据和蛋白质原始数据分别结构化表征构建小分子配体无向复合图和蛋白质knn图;
6、s3,将小分子配体无向复合图输入至小分子配体编码器生成小分子配体的更新后嵌入表示;将蛋白质knn图输入至蛋白质编码器生成蛋白质的更新后嵌入表示,然后构建包含小分子配体和蛋白质相互作用信息的全连接交互图;
7、s4,将包含小分子配体和蛋白质相互作用信息的全连接交互图输入至结合构象预测模型预测蛋白质-小分子配体对接姿态构象;
8、s5,将蛋白质-小分子配体对接姿态构象输入至预先训练好的混合密度神经网络打分函数模型,获得小分子配体与蛋白质之间的亲和力得分和可能的结合位姿。
9、s1中,所述蛋白质原始数据和小分子配体原始数据为pdbbind2020数据库通用集去除核心集后的所有的蛋白质-小分子原始数据。
10、s2中,所述构建小分子配体无向复合图和蛋白质knn图包括:
11、s21,将小分子配体原始数据使用torch_geometric软件包结构表征为无向复合图,以原子为节点,共价键为边,其中为节点特征,为边特征,表示原子坐标;
12、s22,将蛋白质原始数据使用蛋白质残基作为节点,并连接前30个最近邻节点构造knn图,节点用残基表示,为蛋白质节点特征,为蛋白质边特征,残基中碳原子坐标作为节点位置 xp,图中的每个节点或边均包含标量特征和矢量特征,为蛋白质节点的标量特征,为蛋白质边的标量特征,为蛋白质节点的矢量特征,为蛋白质边的矢量特征,所述标量特征包括相对距离和位置距离,所述矢量特征包括方向、侧链方向和边方向的单位向量。
13、s3中,所述构建包含小分子配体和蛋白质相互作用信息的全连接交互图包括:
14、s31,将小分子配体的无向复合图数据输入至小分子配体编码器学习小分子配体内部的原子间相互作用,生成小分子配体更新后的嵌入表示,所述嵌入表示包括节点特征,边缘特征及节点位置信息;
15、s32,将蛋白质knn图数据输入至蛋白质编码器,学习蛋白质残基内部的相互作用以及它们之间的拓扑和几何特征,生成蛋白质更新后的嵌入表示,所述嵌入表示包括残基节点邻居节点的信息以及通过蛋白质编码器学习到的拓扑和几何特征;
16、s33,利用s31获得的小分子配体的更新后嵌入表示和s32获得的蛋白质的更新后嵌入表示,构建包含小分子配体和蛋白质相互作用信息的全连接交互图。
17、进一步地,所述蛋白质编码器为几何瓶颈感知机。
18、进一步地,所述小分子配体编码器为图形变压器网络。
19、进一步地,所述边缘特征由边缘类型单键、双键、三键、芳香键以及非键相互作用和节点之间的距离组成。
20、进一步地,s31中,所述生成小分子配体的更新后嵌入表示包括:将分子配体的无向复合图中每个节点和每条边化学键的特征初始化为d维的嵌入向量;将初始化d维的嵌入向量输入至小分子配体编码器中;采用多头自注意力机制处理节点之间的相互作用更新每个节点嵌入表示,获得小分子配体的更新后嵌入表示。
21、进一步地,s32中,所述生成蛋白质的更新后嵌入表示包括:将蛋白质knn图中每个残基节点的标量特征和矢量特征映射与更新、矢量特征降维与扩展以及标量特征的联合集成,生成最终的更新后的矢量特征和标量特征;在蛋白质编码器的每个层中,使用knn算法选择每个节点最近的30个邻居节点,节点和边的信息被连接起来,形成扩展的特征向量,通过蛋白质编码器对扩展的特征向量进行集成和更新,获得蛋白质的更新后嵌入表示。
22、s4中,所述结合构象预测模块为图神经网络模块,该模块由8个基于自注意力改进的图神经网络层组成,所述预测模型预测蛋白质-小分子配体对接姿态构象包括:以包含小分子配体和蛋白质相互作用信息的交互图中更新后的嵌入表示作为输入,通过多层次的自注意力机制预测蛋白质-小分子配体对接姿态;引入门控方程将更新后的嵌入表示与原始嵌入表示结合,优化预测结果,获得预测的蛋白质-小分子配体对接姿态构象。
23、在进行s5操作前,还包括对蛋白质-小分子配体对接姿态构象进行优化处理的操作,包括力场优化或构象对齐处理。
24、s5中,所述预先训练好的混合密度神经网络打分函数模型,包括:
25、s51,将蛋白质-小分子配体对接姿态构象输入至混合密度神经网络打分函数模型,所述蛋白质-小分子配体对接姿态构象包括蛋白质的节点嵌入表示和小分子配体的节点嵌入,以及它们的位置信息;
26、s52,使用蛋白质编码器和基于自注意力的图神经网络分别处理蛋白质的节点嵌入表示和小分子配体的节点嵌入,捕获蛋白质结构特征和小分子配体化学特征,将处理后的特征向量顺序连接,构建同时包含蛋白质和小分子配体信息的联合特征向量;
27、s53,将s52构建的联合特征向量传递至图神经网络的网络层,所述网络层包括线性层、批量归一化层、elu激活函数和dropout层,组合网络层提取高级特征;
28、s54,使用三个线性层分别预测均值、标准差和混合系数,这些参数共同定义蛋白质与小分子配体之间最小距离的概率分布;另一组线性层用于直接预测亲和力得分;
29、s55,定义损失函数,包括两部分:基于混合密度神经网络输出的概率分布与真实距离之间的误差以及亲和力得分与标准答案之间的交叉熵损失;使用优化算法最小化损失函数,设定早停直至其损失值不再变化即认为打分部分已完全学习到蛋白质-小分子的特征,获得预先训练好的混合密度神经网络打分函数模型。
30、实现上述基于深度学习的蛋白质-小分子配体快速准确对接方法的系统,包括:
31、数据采集模块,用于获取蛋白质原始数据和小分子配体原始数据;
32、结构化表征构建模块,用于将小分子配体和蛋白质的原始数据分别进行结构化表征,构建小分子配体无向复合图和蛋白质knn图;
33、交互图构建模块,基于小分子配体编码器和蛋白质编码器,用于获取小分子配体的更新后嵌入表示和蛋白质的更新后嵌入表示,构建包含小分子配体和蛋白质相互作用信息的全连接交互图;
34、结合构象预测模块,用于预测蛋白质-小分子配体的对接姿态构象;
35、打分函数模型模块,评估预测的对接姿态构象的亲和力得分和可能的结合位姿;
36、后处理与优化模块,用于对预测的蛋白质-小分子配体对接姿态构象进行力场优化或构象对齐后处理,获得优化后的蛋白质-小分子配体对接姿态构象;
37、输出与可视化模块,用于输出预测的对接姿态构象、亲和力得分和可能的结合位姿,并提供可视化功能。
38、本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现上述基于深度学习的蛋白质-小分子配体快速准确对接方法的步骤。
39、本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于深度学习的蛋白质-小分子配体快速准确对接方法的步骤。
40、与现有技术相比,本发明具有以下有益效果:
41、本发明提供的基于深度学习的蛋白质-小分子配体快速准确对接方法,该方法通过深度学习技术能够高效且准确地预测蛋白质与小分子配体的对接姿态,相较于传统对接方法,显著提高了计算效率和预测精度。本发明方法通过将小分子配体和蛋白质数据分别表征为无向复合图和knn图,这种结构化表征方式有效地捕捉了分子内部的原子间相互作用和蛋白质残基间的空间关系,为后续深度学习提供了高质量的数据输入;基于小分子配体编码器和蛋白质编码器分别学习小分子配体和蛋白质的复杂特征,生成更新后的嵌入表示,这种设计使得模型能够更深入地理解分子间的相互作用,利用小分子配体和蛋白质更新后的嵌入表示构建全连接交互图,该图包含了丰富的相互作用信息,有助于更准确地预测对接姿态;通过结合构象预测模型预测对接姿态,并引入力场优化和构象对齐后处理,进一步提高对接姿态的精确性,采用混合密度神经网络模型作为打分函数,能够同时预测蛋白质与小分子配体之间的最小距离概率分布和亲和力得分,提高了预测的多样性和准确性。
42、进一步地,通过使用torch_geometric库将小分子配体表征为无向复合图,有效捕捉原子间的相互作用;通过knn图构建蛋白质的结构表示,利用残基和碳原子坐标,充分考虑了蛋白质的几何特征;采用小分子配体编码器和蛋白质编码器对各自的图数据进行深度学习,能够捕获到原子间和残基间的复杂相互作用以及它们的拓扑和几何特征,使用几何瓶颈感知机作为蛋白质编码器,进一步增强了模型对蛋白质三维结构的理解能力,将边缘类型、距离等非键相互作用等多种特征融合到嵌入表示中,提高了模型的准确性和鲁棒性;利用基于自注意力改进的图神经网络模块预测对接姿态,通过多层次的自注意力机制增强了节点间的信息交互,提高了对接姿态预测的精度,引入门控方程,将更新后的嵌入与原始嵌入进行结合,进一步提升了预测结果的准确性;采用混合密度神经网络作为打分模型,能够同时预测亲和力得分和距离分布,为评估小分子配体与蛋白质之间的结合提供了更加全面的信息。
43、本发明提供的系统,构建了一套完整的系统,系统采用模块化设计,包括数据采集、数据预处理、特征学习、交互图构建、对接姿态预测、后处理、打分模型和优化训练等多个模块,各模块之间相对独立,便于维护和扩展,提供了计算机设备和计算机可读存储介质的实现方式,使得该方法可以在多种计算平台上部署和应用,增强了技术的通用性和可移植性;本发明可应用于药物研发领域,快速准确地预测小分子药物与蛋白质靶标的结合位点和亲和力,加速新药发现和开发过程,也可用于研究蛋白质-配体相互作用机制,揭示生命过程中的分子调控机制,具有广泛的应用前景。
技术研发人员:任胜寒,徐欣怡,陈雪利,郭妍贝,刘琦,张浩田
技术所有人:西安电子科技大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除