基于机器学习算法的上颌窦囊肿预测模型的构建方法、上颌窦囊肿预测方法及装置、存储介质

本申请涉及计算机数据处理,具体涉及一种基于机器学习算法的上颌窦囊肿预测模型的构建方法、上颌窦囊肿预测方法及装置、存储介质。
背景技术:
1、上颌窦囊肿是上颌窦黏膜病变的类型之一,占所有鼻旁窦囊肿的89.5%-92.7%,发病率为3.6%-35.6%。上颌窦囊肿早期多无症状,囊肿增大充满窦腔后可出现面颊部闷胀感和按压疼痛及同侧牙痛等症状。若囊肿增大压迫鼻中隔,可导致鼻中隔偏曲;若囊肿堵塞上颌窦口,可出现鼻窦炎相关症状,如鼻塞、流涕等。临床上进行上颌窦底提升术时,为了有效处理上颌窦囊肿,必须充分了解其致病因素。以往的研究报道了与上颌窦囊肿相关的解剖因素和牙源性因素等,但并未形成统一结论。此外,各种影响因素与上颌窦囊肿之间错综复杂的非线性关系对于传统线性统计方法的应用提出了巨大挑战。考虑到上颌窦囊肿发生率较高、影响因素不明确、影响患者生活质量以及给医生带来困扰,为了提高对上颌窦囊肿的预测准确性和及早干预的能力、提高患者的生活质量,迫切需要确定上颌窦囊肿的危险因素并对上颌窦囊肿的发生进行预测。
技术实现思路
1、本申请的目的在于提供一种基于机器学习算法的上颌窦囊肿预测模型的构建方法、上颌窦囊肿预测方法及装置、存储介质,用以解决现有技术中需要确定上颌窦囊肿的危险因素并对上颌窦囊肿的发生进行预测的问题。
2、为实现上述目的,本申请实施例提供一种基于机器学习算法的上颌窦囊肿预测模型的构建方法,包括以下步骤:获取患者的临床数据,形成数据集,并对所述数据集进行数据预处理;
3、运用卡方检验、lasso回归方法筛选所述数据集中的特征变量,并基于筛选后的所述特征变量,构建训练集、验证集和测试集;
4、基于极端梯度提升算法构建初始预测模型;
5、基于所述训练集、验证集和测试集对所述初始预测模型进行训练,通过迭代地添加树,每次添加一个树来拟合上一轮预测的残差,最终得到均方根误差符合预设要求的上颌窦囊肿预测模型。
6、可选地,所述获取患者的临床数据,具体包括:
7、获取上颌窦囊肿的影响因素数据,包括:年龄、性别、牙列情况、牙髓情况、牙周情况、上颌窦不同侧、牙根与上颌窦底的关系、上颌窦底形态、上颌窦侧壁血管、上颌窦黏膜情况、是否存在上颌窦炎、上颌窦发育情况、上颌窦底皮质骨情况。
8、可选地,所述对数据集进行数据预处理,具体包括:
9、去除所述数据集中的异常值、缺失值,通过插值法对缺失数据进行填补;
10、对所述数据集中的数值型变量进行归一化或标准化。
11、可选地,所述筛选数据集中的特征变量,具体包括:
12、将所述数据集中的分类变量用数字和百分比表示,并用卡方检验进行筛选,筛选出双侧p值小于0.05的分类变量;
13、使用lasso回归进一步筛选特征变量,具体包括:通过生成惩罚函数来压缩回归模型中的变量系数,以防止过拟合,通过自变量之间的相关关系,将相关的自变量的系数变为0,其中,lasso回归设置了10倍交叉验证,并通过r包执行。
14、可选地,筛选出的所述特征变量包括:性别、年龄、牙髓情况、牙周情况、牙根与上颌窦底的关系、上颌窦底形态、上颌窦侧壁血管、上颌窦黏膜情况、是否存在上颌窦炎、上颌窦发育情况、上颌窦底皮质骨情况。
15、可选地,所述上颌窦囊肿预测模型的参数包括:学习速率为0.1,最大树深度为 6,最小分叉权重和为1,l2正则化系数为0.1。
16、为实现上述目的,本申请还提供一种上颌窦囊肿预测方法,包括步骤:
17、获取患者的相关特征值,输入到权利要求前述任一项所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法所构建的上颌窦囊肿预测模型中,所述特征值包括性别、年龄、牙髓情况、牙周情况、牙根与上颌窦底的关系、上颌窦底形态、上颌窦侧壁血管、上颌窦黏膜情况、是否存在上颌窦炎、上颌窦发育情况、上颌窦底皮质骨情况中的至少一项;
18、通过所述上颌窦囊肿预测模型输出预测结果,给出患者发生上颌窦囊肿的概率。
19、为实现上述目的,本申请还提供一种基于机器学习算法的上颌窦囊肿预测模型的构建装置,包括:存储器;以及,
20、与所述存储器连接的处理器,所述处理器被配置成执行如上所述的方法的步骤。
21、为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
22、本申请实施例具有如下优点:
23、通过上述方法,基于大规模的患者数据,利用卡方检验、lasso回归等方法,筛选出上颌窦囊肿的危险因素,并借助机器学习算法构建了高效的上颌窦囊肿预测模型。极端梯度提升算法具有优秀的性能,在训练集、验证集和测试集的平均曲线下面积(area undercurve,auc)值分别为0.939、0.923和0.921。基于xgboost模型构建的上颌窦囊肿预测模型能够有效预测未来发生上颌窦囊肿的概率,从而解决了现有技术中需要确定上颌窦囊肿的危险因素并对上颌窦囊肿的发生进行预测的问题。
技术特征:
1.一种基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,所述获取患者的临床数据,具体包括:
3.根据权利要求1所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,所述对数据集进行数据预处理,具体包括:
4.根据权利要求1所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,所述筛选数据集中的特征变量,具体包括:
5.根据权利要求4所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,
6.根据权利要求1所述的基于机器学习算法的上颌窦囊肿预测模型的构建方法,其特征在于,
7.一种上颌窦囊肿预测方法,其特征在于,包括步骤:
8.根据权利要求7所述的上颌窦囊肿预测方法,其特征在于,还包括:
9.一种基于机器学习算法的上颌窦囊肿预测模型的构建装置,其特征在于,包括:
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至8中任一项所述的方法的步骤。
技术总结
本申请涉及计算机数据处理技术领域,公开了一种基于机器学习算法的上颌窦囊肿预测模型的构建方法、上颌窦囊肿预测方法及装置、存储介质,其中构建方法包括获取患者的临床数据,形成数据集,并对数据集进行数据预处理;运用卡方检验、LASSO回归方法筛选数据集中的特征变量,并基于筛选后的特征变量,构建训练集、验证集和测试集;基于极端梯度提升算法构建初始预测模型;基于训练集、验证集和测试集对初始预测模型进行训练,通过迭代地添加树,每次添加一个树来拟合上一轮预测的残差,最终得到均方根误差符合预设要求的上颌窦囊肿预测模型。以解决现有技术中需要确定上颌窦囊肿的危险因素并对上颌窦囊肿的发生进行预测的问题。
技术研发人员:李自良,杨浩然,陈宇翔,赵安娜,饶先琦
受保护的技术使用者:昆明医科大学
技术研发日:
技术公布日:2024/11/28
技术研发人员:李自良,杨浩然,陈宇翔,赵安娜,饶先琦
技术所有人:昆明医科大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除