危化品重点区域分类模型的训练方法与装置与流程

本发明涉及工业现场安全等级分类领域,具体地涉及一种危化品重点区域分类模型的训练方法与装置,以及一种危化品重点区域分类方法与装置。
背景技术:
1、危化品重点区域是指对环境和社会具有重大影响的区域,通常以是否为危化品生产、经营企业数量以及化工园区布局情况等为依据进行划分,按照重要等级划分为国家级、省级和市级。
2、目前,划分是否为危化品重点区域和重点区域的重要等级分类的考量维度和数据有限且标准不明晰,没有相应的量化评估方法。因此,需要一种通过数据分析方法,对危化品重点区域的划分进行量化评估与分类,实现危化品重点区域划分的标准化、合理化。
技术实现思路
1、本发明实施例的目的是为了克服现有技术存在的危化品重点区域的划分不够标准化合理化这一问题,提供一种危化品重点区域分类模型的训练方法与装置,以及一种危化品重点区域分类方法与装置。
2、本技术第一方面提供了一种危化品重点区域分类模型的训练方法,方法包括:
3、获取多个危化品区域的多个不同类型的特征指标,组成指标数据集;
4、对指标数据集进行针对是否为危化品重点区域的标注,以及针对重点区域等级的标注,以获得训练集;
5、将训练集输入待训练分类模型中,进行模型训练,以获得危化品重点区域分类模型。
6、在本技术的一个实施例中,在对指标数据集进行针对是否为危化品重点区域的标注,以及针对重点区域等级的标注,以获得训练集之前,方法还包括:
7、筛选指标数据集中数值超过预设范围的特征指标,作为异常值;
8、确定异常值所属的特征指标类型;
9、确定特征指标类型包含的所有特征指标的均值与标准差;
10、根据均值与标准差确定期望保证范围;
11、将异常值替换为期望保证范围中的随机数。
12、在本技术的一个实施例中,待训练分类模型包括进行针对是否为重点区域分类的第一待训练模型,以及进行针对重点区域等级分类的第二待训练模型,第二待训练模型包含多个不同类型的子分类模型,将训练集输入待训练分类模型中,进行模型训练,以获得危化品重点区域分类模型,包括:
13、将训练集输入第一待训练模型中,使用wasserstein重心对第一待训练模型进行模型训练,以获得第一模型;
14、将训练集输入每个子分类模型中分别进行模型训练,再进行模型融合,以获得第二模型;
15、将第一模型与第二模型合并为危化品重点区域分类模型。
16、在本技术的一个实施例中,将训练集输入第一待训练模型中,使用wasserstein重心对第一待训练模型进行模型训练,以获得第一模型,包括:
17、在第一待训练模型每层网络的训练过程中,根据训练集提供的样本以及第一待训练模型的损失函数确定局部梯度,并对局部梯度进行缩放与归一化处理;
18、确定所有经过缩放与归一化处理的局部梯度的wasserstein重心,并将wasserstein重心作为全局梯度;
19、对全局梯度进行归一化处理;
20、利用经过归一化处理的全局梯度更新第一待训练模型的模型参数。
21、在本技术的一个实施例中,第一模型为轻量级逻辑回归模型。
22、在本技术的一个实施例中,将训练集输入每个子分类模型中分别进行模型训练,再进行模型融合,以获得第二模型,包括:
23、利用五折交叉验证法对每个子分类模型进行模型训练,以获取每个子分类模型的五个预测结果;
24、将每个子分类模型的五个预测结果进行纵向堆叠,形成每个子分类模型的预测结果矩阵;
25、将所有的预测结果矩阵进行横向拼接,形成训练集矩阵;
26、确定每个子分类模型的五个预测结果的平均值,以获取每个子分类模型的预测结果平均值矩阵;
27、将所有预测结果平均值矩阵进行横向凭借形成测试集矩阵;
28、利用训练集矩阵对融合模型进行模型训练,并利用测试集矩阵对训练完成的待训练融合模型进行测试;
29、当测试的结果满足预设要求时,将训练完成的所有子分类模型,以及训练完成的融合模型,根据子分类模型的输出是融合模型的输入的层级关系,合并为第二模型。
30、在本技术的一个实施例中,子分类模型包括xgboost模型、lightgbm模型以及catboost模型,融合模型为贝叶斯回归模型。
31、在本技术的一个实施例中,方法还包括:
32、根据指标数据集,确定表征指标数据集包括的多个指标特征类型与是否为危化品重点区域之间相关性的热力图;
33、根据热力图确定所有特征指标类型与是否为危化品重点区域之间的相关性系数;
34、根据所有相关性系数确定多个重要指标特征类型。
35、本技术第二方面提供了一种危化品重点区域的分类方法,方法包括:
36、获取待预测区域的特征指标,组成待预测数据集;
37、将待预测数据集输入危化品重点区域分类模型中,获取危化品重点区域分类模型输出的待预测区域的分类结果,其中,分类结果为待预测区域是否为重点区域,或待预测区域的重点区域等级,其中,危化品重点区域分类模型根据本技术第一方面提供的危化品重点区域分类模型的训练方法获得。
38、在本技术的一个实施例中,在将待预测数据集输入危化品重点区域分类模型中,获取危化品重点区域分类模型输出的待预测区域的分类结果之前,方法还包括:
39、筛选待预测数据集中数值超过预设范围的特征指标,作为异常值;
40、确定异常值所属的特征指标类型;
41、确定特征指标类型包含的所有特征指标的均值与标准差;
42、根据均值与标准差确定期望保证范围;
43、将异常值替换为期望保证范围中的随机数。
44、在本技术的一个实施例中,危化品重点区域分类模型包括进行针对是否为重点区域分类的第一模型,以及进行针对重点区域等级分类的第二模型,将经过预处理的预测数据集输入危化品重点区域分类模型中,获取危化品重点区域分类模型输出的待预测区域的分类结果,包括:
45、将预测数据集输入第一模型,确定待预测区域是否为重点区域;
46、在待预测区域不是重点区域的情况下,将待预测区域不是重点区域作为分类结果输出;
47、在待预测区域是重点区域的情况下,将预测数据集输入第二模型;
48、将第二模型数据的待预测区域的重点区域等级作为分类结果输出。
49、本技术第三方面提供了一种危化品重点区域分类模型的训练装置,装置包括:
50、指标数据集组建模块,用于获取多个危化品区域的多个不同类型的特征指标,组成指标数据集;
51、标注模块,用于对经过预处理的指标数据集进行针对是否为危化品重点区域的标注,以及针对重点区域等级的标注,以获得训练集;
52、模型训练模块,用于将训练集输入待训练分类模型中,进行模型训练,以获得危化品重点区域分类模型。
53、本技术第四方面提供了一种危化品重点区域的分类装置,装置包括:
54、待预测数据集组建模块,用于获取待预测区域的特征指标,组成待预测数据集;
55、分类结果获取模块,用于将预测数据集输入危化品重点区域分类模型中,获取危化品重点区域分类模型输出的待预测区域的分类结果,其中,分类结果为待预测区域是否为重点区域,或待预测区域的重点区域等级,其中,危化品重点区域分类模型根据本技术第一方面提供的危化品重点区域分类模型的训练方法获得。
56、本技术第五方面提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器可执行机器可执行指令以实现本技术第一方面提供的危化品重点区域分类模型的训练方法,或本技术第二方面提供的危化品重点区域的分类方法。
57、本技术第六方面提供了一种机器可读存储介质,机器可读存储介质上存储有指令,该指令被处理器执行时使得处理器实现本技术第一方面提供的危化品重点区域分类模型的训练方法,或本技术第二方面提供的危化品重点区域的分类方法。
58、通过上述技术方案,根据多个危化品区域的量化了的特征指标,可以建立用于训练危化品重点区域分类模型的训练集,训练完成获得的危化品重点区域分类模型可以根据待预测区域的特征指标,对待预测区域是否为重点区域以及待预测区域的重点区域等级进行准确预测分类,实现了危化品区域分类的量化、标准化、合理化。
59、本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
技术研发人员:陶然,谷瑞超,石梦琪,施红勋,李传坤,常庆涛,于一帆,王建斌,刘瑾萱
技术所有人:中国石油化工股份有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除