一种基于深度学习的生物表型预测及基因位点筛选方法与流程

本申请涉及动植物育种,特别是涉及一种基于深度学习的生物表型预测及基因位点筛选方法。
背景技术:
1、生物表型预测作为动植物育种过程中的一个重要环节,准确的生物表型预测有助于筛选出优良生物,提高生物的生产性能。目前,生物表型预测主要依赖于传统的统计方法,如最佳线性无偏预测(best linear unbiased prediction,blup)和混合线性模型(mixed linear model,mlm)。传统统计方法的主要技术措施包括基于表型数据和有限数量的基因标记来构建线性模型,通过方差成分分析来估计个体的生物表型。这些方法在计算效率和模型复杂性上有一定的优势,但也存在高维数据处理能力不足、模型复杂度限制、缺乏解释性等明显不足。
2、近年来,研究人员开始探索利用机器学习和深度学习方法进行生物表型预测,主要集中在使用单一的如卷积神经网络cnn或递归神经网络rnn等深度学习模型进行生物表型预测。这些方法能够处理大规模高维数据,并捕捉复杂的非线性关系,但仍存在模型性能不稳定、特征选择不足等问题。
3、因此,相关技术中,亟需一种能够提高生物表型预测精度、效率以及性能稳定性的方式。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高生物表型预测精度、效率以及性能稳定性的一种基于深度学习的生物表型预测及基因位点筛选方法。
2、第一方面,本申请提供了一种基于深度学习的生物表型预测及基因位点筛选方法。所述方法包括:
3、获取基因位点数据,对所述基因位点数据进行预处理;
4、构建深度学习预测模型,所述深度学习预测模型包括干层、卷积块、transformers块、特征对齐模块、共享解码器头对齐模块和输出解码器,其中,所述干层用于初步提取特征,所述卷积块用于提取数据的局部特征,所述transformers块用于特征编码,所述特征对齐模块用于对不同层次的特征进行对齐和整合,所述共享解码器头对齐模块用于对特征进行共享解码,所述输出解码器用于将整合后的特征转换为生物表型预测结果;
5、采用所述基因位点数据训练所述深度学习预测模型;
6、将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点。
7、可选的,在本申请的一个实施例中,所述预处理包括:
8、对所述基因位点数据进行数据清理、数据编码和数据标准化。
9、可选的,在本申请的一个实施例中,所述数据编码包括:
10、确定编码维度;
11、基于所述编码维度初始化编码矩阵;
12、遍历所述基因位点数据,将编码结果填入所述编码矩阵。
13、可选的,在本申请的一个实施例中,所述数据标准化包括:
14、采用z-score标准化方法或min-max标准化方法对所述基因位点数据进行标准化处理。
15、可选的,在本申请的一个实施例中,所述采用所述基因位点数据训练所述深度学习预测模型包括:
16、初始化所述深度学习预测模型的参数;
17、将所述基因位点数据输入所述深度学习预测模型,得到初始生物表型预测结果;
18、基于所述初始生物表型预测结果和标准生物表型预测结果确定损失函数;
19、采用梯度下降算法和反向传播算法最小化所述损失函数,调整所述深度学习预测模型的参数。
20、可选的,在本申请的一个实施例中,所述将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点包括:
21、提取所述待预测基因位点数据的注意力权重矩阵;
22、基于所述注意力权重矩阵计算基因位点贡献度;
23、基于所述基因位点贡献度确定重要基因位点。
24、可选的,在本申请的一个实施例中,所述方法还包括:
25、结合生物学数据库对所述重要基因位点进行功能注释和通路分析。
26、第二方面,本申请还提供了一种基于深度学习的生物表型预测及基因位点筛选装置。所述装置包括:
27、数据获取模块,用于获取基因位点数据,对所述基因位点数据进行预处理;
28、预测模型构建模块,用于构建深度学习预测模型,所述深度学习预测模型包括干层、卷积块、transformers块、特征对齐模块、共享解码器头对齐模块和输出解码器,其中,所述干层用于初步提取特征,所述卷积块用于提取数据的局部特征,所述transformers块用于特征编码,所述特征对齐模块用于对不同层次的特征进行对齐和整合,所述共享解码器头对齐模块用于对特征进行共享解码,所述输出解码器用于将整合后的特征转换为生物表型预测结果;
29、预测模型训练模块,用于采用所述基因位点数据训练所述深度学习预测模型;
30、生物表型预测及基因位点筛选模块,用于将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点。
31、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述各个实施例所述方法的步骤。
32、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例所述方法的步骤。
33、上述一种基于深度学习的生物表型预测及基因位点筛选方法,首先,获取基因位点数据,对所述基因位点数据进行预处理;之后,构建深度学习预测模型,所述深度学习预测模型包括干层、卷积块、transformers块、特征对齐模块、共享解码器头对齐模块和输出解码器,其中,所述干层用于初步提取特征,所述卷积块用于提取数据的局部特征,所述transformers块用于特征编码,所述特征对齐模块用于对不同层次的特征进行对齐和整合,所述共享解码器头对齐模块用于对特征进行共享解码,所述输出解码器用于将整合后的特征转换为生物表型预测结果;之后,采用所述基因位点数据训练所述深度学习预测模型;最后,将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点。也就是说,采用深度学习模型transformers和cnn的结合,通过自注意力机制和卷积操作,有效地捕捉了基因数据的长距离依赖关系和局部特征,提高了生物表型预测的准确性和效率,同时,通过注意力机制分析每个基因位点的贡献度,能够精确识别对生物表型预测有显著影响的重要基因位点,这些重要基因位点可以作为育种决策的重要依据,帮助育种专家筛选出具有优良生物表型的生物。
技术特征:
1.一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述预处理包括:
3.根据权利要求2所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述数据编码包括:
4.根据权利要求2所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述数据标准化包括:
5.根据权利要求1所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述采用所述基因位点数据训练所述深度学习预测模型包括:
6.根据权利要求1所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点包括:
7.根据权利要求6所述的一种基于深度学习的生物表型预测及基因位点筛选方法,其特征在于,所述方法还包括:
8.一种基于深度学习的生物表型预测及基因位点筛选装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及一种基于深度学习的生物表型预测及基因位点筛选方法。所述方法包括:首先,获取基因位点数据,对所述基因位点数据进行预处理;之后,构建深度学习预测模型,所述深度学习预测模型包括干层、卷积块、Transformers块、特征对齐模块、共享解码器头对齐模块和输出解码器;之后,采用所述基因位点数据训练所述深度学习预测模型;最后,将待预测基因位点数据输入所述训练后的深度学习预测模型,输出得到生物表型预测结果以及重要基因位点。有效地捕捉了基因数据的长距离依赖关系和局部特征,提高了生物表型预测的准确性和效率,同时,通过注意力机制分析每个基因位点的贡献度,能够精确识别对生物表型预测有显著影响的重要基因位点。
技术研发人员:杨喜堤,田发,朱良宇,蒋汶余,肖军森,何伟东,王松林,蒲欣怡,程骥鹏,先玉梅,王尚坤
受保护的技术使用者:四川猪佳科技有限公司
技术研发日:
技术公布日:2024/11/26
技术研发人员:杨喜堤,田发,朱良宇,蒋汶余,肖军森,何伟东,王松林,蒲欣怡,程骥鹏,先玉梅,王尚坤
技术所有人:四川猪佳科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除