首页  专利技术  医药医疗技术的改进;医疗器械制造及应用技术

一种基于XGBoost模型的新生儿出生体重预测方法和系统与流程

104次浏览
一种基于XGBoost模型的新生儿出生体重预测方法和系统与流程

本发明属于新生儿产前检查辅助测量与诊断领域,更具体地,涉及一种基于xgboost模型的新生儿出生体重预测方法和系统。


背景技术:

1、围产期新生儿的死亡率与早产儿和新生儿宫内生长受限的发生密切相关。新生儿体重在一定程度上反映了新生儿在母体内的生长发育情况,因此,在产前准确估算新生儿体重可提高对巨大儿、低出生体重儿的诊断率,进而降低产妇分娩的风险、新生儿致残率及死亡率。

2、在我国新生儿中,低出生体重儿的占比约为3.2%~6.3%,巨大儿约占7%。低出生体重儿在围生期的死亡率是正常出生体重儿的2~5倍,且更容易患有新生儿感染、肺发育不良、低血糖及红细胞增多症等疾病。巨大儿在分娩过程中更容易发生产伤、肩难产等情况,成年后还有一定几率患上糖尿病及心血管等相关疾病。准确预测新生儿的出生体重,可以辅助产科医生诊断低出生体重儿及巨大儿。对于母体营养管理、新生儿分娩时机及分娩方式等决策具有重要意义,因此新生儿体重在整个产科管理中至关重要,是评估新生儿健康状态的关键指标之一。

3、现有的新生儿体重预测方法主要有三种:第一种是1985年hadlock等人提出的基于超声测量数据所建立的回归模型;第二种是基于三维超声和磁共振检查的体重预测方法;第三种是基于机器学习的方法模型预测新生儿体重预测方法。

4、然而,上述三种新生儿体重预测方法都存在一些不可忽略的缺陷:

5、第一、现有基于回归模型的新生儿体重预测方法的预测准确率较低(仅为67%~86%),大部分正常新生儿会被错误地诊断为小胎龄儿;

6、第二、现有基于三维超声及磁共振的新生儿体重预测方法并非常规测量方法,其费用高、耗时长,因此难以普遍推广应用;

7、第三、现有基于机器学习模型的新生儿体重预测方法虽然在一定程度上提高了预测准确率,但该方法大多仅在小规模数据上得到验证,导致模型鲁棒性及泛化性较差;

8、第四、现有基于机器学习模型的新生儿体重预测方法由于没有考虑父母因素(例如父母身高、体重等)带来的影响,因此会降低体重预测的准确性。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本发明提供了一种基于xgboost模型的新生儿出生体重预测方法和系统,其目的在于,解决现有基于回归模型的新生儿体重预测方法的预测准确率较低、大部分正常新生儿会被错误地诊断为小胎龄儿的技术问题,以及现有基于三维超声及磁共振的新生儿体重预测方法并非常规测量方法,其费用高、耗时长,因此难以普遍推广应用的技术问题,以及现有基于机器学习模型的新生儿体重预测方法由于大多仅在小规模数据上得到验证,导致模型鲁棒性及泛化性较差的技术问题,以及现有基于机器学习模型的新生儿体重预测方法由于没有考虑父母因素带来的影响,因此会降低体重预测的准确性的技术问题。

2、为实现上述目的,按照本发明的一个方面,提供了一种基于xgboost模型的新生儿出生体重预测方法,包括以下步骤:

3、(1)获取待预测新生儿的超声测量数据和父母属性数据。

4、(2)对步骤(1)获取的待预测新生儿的超声测量数据和父母属性数据分别进行预处理,将预处理后的超声测量数据和预处理后的父母属性数据进行拼接处理,以得到待预测新生儿的综合特征向量。

5、(3)将步骤(2)得到的待预测新生儿的综合特征向量输入预先训练好的xgboost模型,以得到待预测新生儿的出生体重预测结果。

6、优选地,步骤(2)中对步骤(1)获取的待预测新生儿的超声测量数据和父母属性数据分别进行预处理这一过程包括以下子步骤:

7、(2-1)对步骤(1)得到的超声测量数据先后进行插值和平滑处理,以得到预处理后的超声测量数据(其目的在于填补缺失值,并去除异常值);

8、(2-2)对步骤(2-1)得到的预处理后的超声测量数据进行特征提取,以得到一组特征向量;

9、(2-3)对步骤(1)得到的父母属性数据进行归一化处理,以得到归一化后的父母属性数据;

10、(2-4)将步骤(2-2)得到的一组特征向量与步骤(2-3)得到的归一化后的父母属性数据进行拼接,以得到该新生儿的综合特征向量。

11、优选地,xgboost模型是通过以下步骤训练得到的:

12、(3-1)获取数据集,所述数据集包括多个新生儿的数据,包括每个新生儿的超声测量数据、每个新生儿的父母属性数据和每个新生儿的出生体重数据,每个数据都是以特征向量的方式存在;

13、(3-2)对步骤(3-1)获取的数据集进行预处理,以得到预处理后的数据集,并将预处理后的数据集按照8:2的比例划分为训练集和测试集;

14、(3-3)使用步骤(3-2)得到的训练集中的所有数据构建k棵分类回归树cart,所有cart树构成cart树集合;其中k为cart树的数量;

15、(3-4)针对步骤(3-1)得到的数据集对应的每个新生儿而言,将该新生儿的数据输入步骤(3-3)得到的该特征向量对应的cart树中,以得到该棵cart树对应的该新生儿的预测分数;

16、(3-5)设置迭代计数器t=0;

17、(3-6)判断迭代计数器t是否等于预设的最大迭代次数,如果是则进入步骤(3-13),否则进入步骤(3-7);

18、(3-7)针对步骤(3-1)得到的数据集对应的每个新生儿而言,根据步骤(3-4)得到的所有cart树对应的该预测分数获取第t次迭代时该新生儿的第i个数据的预测值;

19、(3-8)针对步骤(3-1)得到的数据集对应的每个新生儿而言,根据步骤(3-5)得到的第t次迭代时该新生儿的第i个数据的预测值获取第t次迭代时的目标函数:

20、(3-9)根据步骤(3-8)得到的第t次迭代时的目标函数获取第t次迭代时新生儿的第i个数据对应的第t棵cart树ft(xi(t));

21、(3-10)根据步骤(3-9)得到的第t次迭代时新生儿的第i个数据对应的第t棵cart树ft(xi(t))对步骤(3-8)得到的第t次迭代时的目标函数进行更新,以得到更新后的第t次迭代时的目标函数;

22、(3-11)对步骤(3-10)更新后的第t次迭代时的目标函数进行二阶泰勒展开,以获取展开后的第t次迭代时的目标函数;

23、(3-12)设置t=t+1,并返回步骤(3-7);

24、(3-13)基于步骤(3-11)展开后的第t次迭代时的目标函数,并使用梯度提升算法对步骤(3-3)得到的cart树集合进行优化求解,以得到最优的cart树集合;

25、(3-14)将步骤(3-13)得到的最优cart树集合进行组合,以生成训练好的xgboost预测模型。

26、优选地,步骤(3-1)中的超声测量数据是新生儿的母亲的四次常规超声检查数据,分别为11周至14周nt超声检查、18周至26周iii级超声检查、29周至31周ii级超声检查、36周i级超声检查及出生前7天内的超声检查,涉及新生儿头臀长、双顶径、头围、腹围、股骨长、新生儿心率等指标;

27、新生儿的父母属性数据包括新生儿母亲的年龄、民族、籍贯、分娩孕周、孕次产次、孕前体重、每次超声检查时体重、身高,以及新生儿父亲的体重、身高等指标。

28、优选地,步骤(3-3)中使用数据构建k棵cart树这一过程,首先是从预处理后的训练集中提取所有新生儿的数据,然后,根据每个新生儿的数据的维度,构建对应于该数据的一棵cart树,所有的cart树构成cart树集合。

29、优选地,步骤(3-7)中第t次迭代时新生儿的第i个数据的预测值为:

30、其中fk∈τ

31、其中,yi(t)表示第t次迭代时新生儿的第i个数据的预测值,其对应于每一棵cart树中的第i个叶节点,xi(t)表示第t次迭代时新生儿的第i个数据,τ表示步骤(3-3)得到的cart树集合,fk(xi(t))表示第t次迭代时新生儿的第i个数据对应的第k棵cart树,fk表示第k棵cart树,且有i∈[1,步骤(3-1)中获取的该新生儿的数据的总数n],k∈[1,k]。

32、优选地,步骤(3-8)中获取第t次迭代时的目标函数是采用以下公式:

33、

34、其中yi表示第t次迭代时新生儿的第i个数据的真实值,表示均方误差(mean square error,简称mse)函数,ω(ft)表示正则化项。

35、均方误差函数具体为:

36、

37、正则化项为:

38、

39、其中γ和λ均表示正则化参数,ωi(t)表示第t次迭代时cart树中第i个叶节点的预测分数。

40、优选地,步骤(3-9)是采用以下公式:

41、

42、步骤(3-10)是采用以下公式:

43、

44、其中c为常数项。

45、优选地,步骤(3-11)是采用以下公式:

46、

47、其中,gi和hi为一阶和二阶导数。这里,gi是损失函数对的一阶导数,hi是损失函数对的二阶导数。

48、按照本发明的另一方面,提供了一种基于xgboost模型的新生儿出生体重预测系统,包括:

49、第一模块,用于获取待预测新生儿的超声测量数据和父母属性数据。

50、第二模块,用于对第一模块获取的待预测新生儿的超声测量数据和父母属性数据分别进行预处理,将预处理后的超声测量数据和预处理后的父母属性数据进行拼接处理,以得到待预测新生儿的综合特征向量;

51、第三模块,用于将第二模块得到的待预测新生儿的综合特征向量输入预先训练好的xgboost模型,以得到待预测新生儿的出生体重预测结果。

52、总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

53、(1)本发明由于采用了步骤(3-3)和步骤(3-8),通过构建和优化多棵cart树,能够充分挖掘数据中的复杂特征关系,提高预测的准确性,因此能够解决现有基于回归模型的新生儿体重预测方法的预测准确率较低、大部分正常新生儿会被错误地诊断为小胎龄儿的技术问题;

54、(2)本发明由于采用了步骤(3-1)和步骤(3-2),通过获取和预处理大量的新生儿数据,利用常规超声检查数据和父母属性数据进行预测,避免了三维超声及磁共振检查的高成本和耗时问题,因此能够解决现有基于三维超声及磁共振的新生儿体重预测方法并非常规测量方法,其费用高、耗时长,因此难以普遍推广应用的技术问题;

55、(3)本发明由于采用了步骤(3-1)和步骤(3-2),通过在大规模数据集上训练xgboost模型,提升了模型的鲁棒性和泛化性,因此能够解决现有基于机器学习模型的新生儿体重预测方法由于大多仅在小规模数据上得到验证,导致模型鲁棒性及泛化性较差的技术问题;

56、(4)本发明由于采用了步骤(3-1)和步骤(2-3),通过将父母属性数据纳入模型训练,提高了体重预测的准确性,因此能够解决现有基于机器学习模型的新生儿体重预测方法由于没有考虑父母因素带来的影响,因此会降低体重预测的准确性的技术问题;

57、(5)本发明建立的xgboost模型对多维数据进行回归预测,寻找新生儿和孕妇不同时期的数据之间的因果关系,适应新生儿体重与多重因素相关联的理论基础,对新生儿体重做出更准确预测的创新性的有力保障;

58、(6)本发明采用产前超声与人工智能的紧密结合,能大大减少繁重耗时的重复性人力劳动,降低超声医生经验的依赖性,使诊断准确率更高、工作流程更顺畅、时间成本更低,能明显地强化医疗安全,有巨大的社会经济效益。

文档序号 : 【 40163997 】

技术研发人员:陈亚岩,蒲斌,梁博诚,李胜利,袁鹰
技术所有人:深圳市龙华区妇幼保健院(深圳市龙华区妇幼保健计划生育服务中心、深圳市龙华区健康教育所)

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
陈亚岩蒲斌梁博诚李胜利袁鹰深圳市龙华区妇幼保健院(深圳市龙华区妇幼保健计划生育服务中心、深圳市龙华区健康教育所)
一种远程医疗数据处理方法及相关设备与流程 一种轻量级空间适配器增强的医学报告生成方法
相关内容