用于分子虚拟筛选的集成回归模型及生成方法、预测方法与流程
技术特征:
1.一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,对从超大规模化合物库中选取的分子进行处理,所述处理包括确定分子的立体异构构型和正确的电离态,以及利用rdkit将smiles格式的分子转换为ecfp4指纹。
3.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,在步骤5中,以n个回归模型的预测结果的加权平均值作为综合预测结果。
4.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,所述k为超大规模化合物库中分子总数的1%。
5.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,所述迭代次数为8次。
6.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,在步骤6中,选择预测得分最高且标准差最大的k个分子的过程为:
7.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,所述回归模型包括rf、svm、ridge、xgboost、lgbm、dnn、gcn和gat中的多个。
8.如权利要求1所述的一种用于分子虚拟筛选的集成回归模型生成方法,其特征在于,在步骤7中,以rmse作为回归模型的预测性能的评价指标。
9.一种用于分子虚拟筛选的集成回归模型,其特征在于,通过如权利要求1至8任一项所述的一种用于分子虚拟筛选的集成回归模型生成方法从8个回归模型中选取4个回归模型作为集成回归模型;
10.一种用于分子虚拟筛选的预测方法,其特征在于,使用如权利要求9所述的一种用于分子虚拟筛选的集成回归模型,包括以下步骤:
技术总结
本发明涉及计算机辅助药物设计技术领域,具体公开了用于分子虚拟筛选的集成回归模型及生成方法、预测方法,生成方法包括:从超大规模化合物库中随机选取K个分子作为训练集;训练回归模型;使用训练后的回归模型对超大规模化合物库中未选取的分子进行预测,获得综合预测结果;从综合预测结果的阳性预测池中选择预测得分最高且标准差最大的K个分子,加入训练集;再次训练回归模型;训练次数达到迭代次数,选取预测性能最好的多个的回归模型,得到集成回归模型。本发明通过在得分最高的化合物中选择预测值标准差最大的化合物进行标注,以将精力集中于那些最具挑战性或者最不确定的样本,从而提高标注效率和模型性能。
技术研发人员:周晓菲,王目阔
受保护的技术使用者:天津贝芸科技有限公司
技术研发日:
技术公布日:2024/11/28
文档序号 :
【 40165267 】
技术研发人员:周晓菲,王目阔
技术所有人:天津贝芸科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:周晓菲,王目阔
技术所有人:天津贝芸科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除