一种地球化学元素含量模拟和异常值检测方法

本发明属于数据信息挖掘,具体涉及一种地球化学元素含量模拟和异常值检测方法。
背景技术:
1、地球化学元素含量数据生产的目的多种多样,进行化学元素含量分析时所采用的分析测试方法也各有不同,因此,地球化学元素含量数据中常常存在一些高于检出上限或低于检出下限的记录,这类记录一般被统称为删失值,另外,也可能因为研究目的或经费限制,只有部分重要的目标元素被分析,其他一些元素则被忽略,这些没有被分析的数据一般被称为缺失值。当为了某些研究目的而收集大量原始地球化学元素含量数据时,缺失值和删失值存在的现象就更加明显,汇总得到的地球化学元素含量数据就显得非常稀疏。
2、进行地球化学元素含量数据分析和信息挖掘时,各种数据分析方法通常都不接受包含删失值或缺失值的数据,这为研究工作带来了极大不便。为了增加数据的可用性,一般采用的方法包括,对于低于检出限的记录,使用检出下限的一定比例(比如0.5倍)进行替换;对于高于检出上限的记录,使用检出上限的一定比例(比如1.5倍)进行替换。以上这种做法虽然满足了数据分析方法对数据组织形式的要求,但是,显然是一种武断的方法。为了使用更合理的方法替换删失值或补充缺失值,还有最大似然方法等也被用于删失值和缺失值处理。但是,这类方法仍然存在较高的主观性。
3、因此,亟需一种能够广泛应用的机器学习算法对地球化学元素含量数据中普遍存在的删失值和缺失值等问题开展研究,探索地球化学元素间的隐式关联,为地球化学元素含量数据模拟提供一种可靠的技术方法。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种地球化学元素含量模拟、地球化学元素分类和异常值检测方法,为地球化学元素含量数据集中出现的缺失值和异常值等问题提供了解决方案。
2、为了达到上述发明目的,本发明采用的技术方案为:一种地球化学元素含量模拟和异常值检测方法,包括以下步骤:
3、s1:获取地球化学元素含量数据,并进行预处理,得到预处理的地球化学元素含量数据;
4、s2:根据预处理的地球化学元素含量数据,利用随机森林模型进行机器学习,建立元素含量模拟模型;
5、s3:获取原始地球化学元素含量数据集,并利用元素含量模拟模型进行含量模拟,得到地球化学元素含量模拟结果;
6、s4:根据地球化学元素含量模拟结果和原始地球化学元素含量数据集,利用滑动窗口进行遍历,通过计算识别得到原始地球化学数据中的异常值。
7、本发明的有益效果为:本发明通过多元素地球化学元素含量数据和随机森林模型,构建元素含量模拟模型,能够对绝大多数岩石和水系沉积物中的主量元素和微量元素进行含量模拟,且能够得到可靠的模拟结果,在一定程度上反映元素含量的总体变化趋势,解决了地球化学元素含量数据中的缺失数据和错误数据的问题,有助于提高地球化学元素数据库的建设质量,同时能够间接的节省地球化学样品采集、运输和多元素含量分析等费用。
8、进一步地:所述s2的具体步骤包括:
9、s201:将预处理的地球化学元素含量数据按照设定的比例划分为训练集、测试集和验证集;
10、s202:使用训练集和测试集进行随机森林模型的构建和测试,得到未验证的元素含量模拟模型;
11、s203:使用验证集对未验证的元素含量模拟模型进行验证,得到验证的元素含量模拟模型。
12、上述进一步方案的有益效果为:本发明能够采用留一法leave-one-out对随机森林模型进行训练,构建得到元素含量模拟模型,能够对地球化学元素含量数据集中的缺失值进行含量模拟,且含量模拟结果具有准确性和可靠性。
13、进一步地:所述s2的具体步骤还包括:
14、a1:将预处理的地球化学元素含量数据按照设定的比例划分为训练集、测试集和验证集,训练集和测试集合并在一起后划分为k份数据,其中,k为大于等于2的自然数;
15、a2:选择k份数据中的一份数据,作为测试数据;
16、a3:根据除测试数据外的k-1份数据对随机森林模型进行训练,得到未验证的元素含量模拟模型;
17、a4:根据验证数据,对未验证的元素含量模拟模型进行验证,得到经过验证的元素含量模拟模型;
18、a5:判断k份数据中的每份数据是否均被作为测试数据使用过,若是,得到经过验证的元素含量模拟模型,否则,返回a2。
19、上述进一步方案的有益效果为:本发明能够采用k折k-fold交叉验证对随机森林模型的效果进行验证,构建得到元素含量模拟模型,能够对地球化学元素含量数据集中的缺失值进行含量模拟,且含量模拟结果具有准确性和可靠性。
20、进一步地:所述s3的具体步骤如下:
21、s301:获取原始地球化学元素含量数据集;
22、s302:筛选出原始地球化学元素含量数据集中缺失值对应的地球化学元素含量数据,并作为元素含量模拟模型的输入数据集;
23、s303:根据输入数据集,通过元素含量模拟模型进行含量模拟,得到输入数据集中缺失值的模拟值;
24、s304:将输入数据集中缺失值的模拟值,与原始地球化学元素含量数据集结合,得到地球化学元素含量模拟结果。
25、上述进一步方案的有益效果为:本发明利用构建的元素含量模拟模型对原始地球化学元素含量数据集进行处理,能够对其缺少的缺失值进行模拟,得到地球化学元素的模拟结果,且具有较好的准确性和可靠性。
26、进一步地:所述s303的具体步骤如下:
27、s3031:根据输入数据集,通过元素含量模拟模型进行含量模拟,得到元素含量模拟模型中若干个决策树输出的结果;
28、s3032:计算若干个决策树输出的结果的平均值,得到输入数据集中缺失值的模拟值。
29、上述进一步方案的有益效果为:通过元素含量模拟模型,能够实现地球化学元素数据集中缺失值的模拟和化学元素的分类,便于后续计算得到地球化学元素含量分类结果和地球化学元素含量分布图。
30、进一步地:所述s4的具体步骤如下:
31、s401:除去原始地球化学元素含量数据集中的缺失值,并在除去缺失值后和地球化学元素的含量模拟结果结合,得到未排序的地球化学元素含量数据集;
32、s402:对未排序的地球化学元素含量数据集进行排序处理,得到排序的地球化学元素含量数据集;
33、s403:根据排序的地球化学元素含量数据集,利用固定大小的窗口按照滑动的形式进行遍历,得到若干个数据子集;
34、s404:根据若干个数据子集,计算得到每个数据子集中每个数据和该数据子集的中值的比值,并进入s405;
35、s405:判断比值是否小于第一指定阈值,若是,则该比值对应的数据为异常值,否则,进入s406;
36、s406:判断比值是否大于第二指定阈值,若是,则该比值对应的数据为异常值,否则,该比值为正常数据。
37、上述进一步方案的有益效果为:通过窗口滑动算法,结合原始地球化学元素含量数据集和地球化学元素的含量模拟结果,能够快速简便地计算得到异常值。
技术研发人员:周曙光,王金林,张征峰,安少乐
技术所有人:中国科学院新疆生态与地理研究所
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除