一种专利分类方法、设备和存储介质

本发明涉及大数据及人工智能,更具体地,涉及一种专利分类方法、设备和存储介质。
背景技术:
1、专利既是一种技术信息的载体,也是一种法律文书。随着专利侵权诉讼案件的日益增多,有关专利稳定性预测和专利的胜败诉预测也成了日益关注的焦点。现有技术中对于专利稳定性预测、专利胜败诉预测主要依赖于专业人员的经验分析,其主观性较强,并不具有普适性。
2、专利稳定性预测和专利胜败诉预测可以视为一种专利的分类建模问题。随着大数据和人工智能技术的发展,利用大数据对专利文件进行分类成为了可能。现有技术中专利分类,通常认为的是指通过人工智能的方式拆解专利文件,分析其技术领域和技术方案,并按照技术领域和/或技术方案将其分入对应的国际专利分类表(ipc)中。然而,对于专利稳定性、胜败诉预测等特定分类情况下的专利分类,现有技术中仍未有所见。
技术实现思路
1、针对现有技术的至少一个缺陷或改进需求,本发明提供了一种专利分类方法、设备和存储介质,通过获取大量的专利数据并加以处理,用于拟合出针对特定需求的专利分类模型,可以有效提高专利分类结果的准确度。
2、为实现上述目的,按照本发明的第一个方面,提供了一种专利分类方法,该方法包括:
3、提取待分类专利的数值指标、分类指标以及对应的数值数据、分类数据,将其输入专利分类模型中,得到专利分类结果;其特征在于,所述专利分类模型按照以下步骤构建:
4、获取多件专利的数值指标及其对应的数值数据、分类指标及其对应的分类数据,以及分类结果;
5、对数值数据进行数据清洗和归一化,对分类数据和分类结果进行数据编码;
6、利用数据清洗后的数值数据、编码后的分类数据和编码后的分类结果,对数值指标和分类指标进行预处理,得到预处理后的数值指标和预处理后的分类指标;
7、利用预处理后的数值指标及其对应的数值数据、预处理后的分类指标及其对应的分类数据构建数据集,将数据集用于对初始分类模型的训练,得到专利分类模型;
8、其中,所述分类结果是二元数据,所述专利分类模型是二元分类器。
9、进一步地,上述专利分类方法还包括:
10、将分类数据和分类结果按照数据不同分别编码为1和0。
11、进一步地,上述专利分类方法还包括:
12、对数值指标和分类指标进行显著性分析,剔除不具有显著性的数值指标和分类指标;
13、计算各数值指标对应的数值数据的方差,剔除方差小于方差阈值的数值指标;
14、对数值指标进行相关性分析,剔除不具有相关性的数值指标。
15、进一步地,上述专利分类方法还包括:
16、设原假设为“专利分类结果与对应的数值指标没有显著性差异”,备择假设为“专利分类结果与对应的数值指标存在着显著性差异”,采用mann-whitney u检验,计算p值,并剔除p值大于第一显著性阈值的数值指标。
17、进一步地,上述专利分类方法还包括:
18、设原假设为“专利分类结果与对应的分类指标没有显著性差异”,备择假设为“专利分类结果与对应的分类指标存在着显著性差异”,采用费舍尔精确概率法,计算p值,并剔除p值大于第一显著性阈值的分类指标。
19、进一步地,上述专利分类方法还包括:
20、计算数值指标与分类结果的点二列相关系数及其对应的显著性p值,剔除其中点二列相关系数的显著性p值大于第二显著性阈值的数值指标。
21、进一步地,上述专利分类方法还包括:
22、所述初始分类模型是逻辑回归模型、决策树模型、梯度提升树模型和支持向量机模型中的一种。
23、进一步地,上述专利分类方法还包括:
24、在所述初始分类模型是梯度提升树模型时,通过调用python的scikit-learn库中的梯度提升分类器,并调节迭代次数、学习率、决策树的最大深度以及每个叶子节点包含的最小样本数,使得所述梯度提升树模型在专利分类中取得最佳性能。
25、按照本发明的第二个方面,还提供了一种专利分类设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述方法的步骤。
26、按照本发明的第三个方面,还提供了一种存储介质,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备执行上述任一项所述方法的步骤。
27、总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
28、(1)本发明提供的专利分类方法,通过获取大量的专利数据并加以处理,用于拟合出针对特定需求的专利分类模型,可以有效提高专利分类结果的准确度。
29、(2)本发明提供的专利分类方法,针对专利分析中常见的数值指标和分类指标,采用不同的筛选方式,准确剔除无关指标,进一步提高专利分类结果的准确度。
技术特征:
1.一种专利分类方法,包括提取待分类专利的数值指标、分类指标以及对应的数值数据、分类数据,将其输入专利分类模型中,得到专利分类结果;其特征在于,所述专利分类模型按照以下步骤构建:
2.如权利要求1所述的专利分类方法,其特征在于:
3.如权利要求1所述的专利分类方法,其特征在于:
4.如权利要求3所述的专利分类方法,其特征在于:
5.如权利要求3所述的专利分类方法,其特征在于:
6.如权利要求3所述的专利分类方法,其特征在于:
7.如权利要求1所述的专利分类方法,其特征在于:
8.如权利要求7所述的专利分类方法,其特征在于:
9.一种专利分类设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~8任一项所述方法的步骤。
10.一种存储介质,其特征在于,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备执行权利要求1~8任一项所述方法的步骤。
技术总结
本发明公开了一种专利分类方法,包括:提取待分类专利的指标和数据,将其输入专利分类模型中,得到专利分类结果;专利分类模型按照以下步骤构建:获取多件专利的指标、和分类结果;对数值数据进行数据清洗和归一化,对分类数据和分类结果进行数据编码;对数值指标和分类指标进行预处理;利用预处理后的指标及数据构建数据集,将数据集用于对初始分类模型的训练,得到专利分类模型。本发明通过获取大量的专利数据并加以处理,用于拟合出针对特定需求的专利分类模型,可以有效提高专利分类结果的准确度。
技术研发人员:何丹,黄庆凤
受保护的技术使用者:华中科技大学
技术研发日:
技术公布日:2024/11/14
技术研发人员:何丹,黄庆凤
技术所有人:华中科技大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除