机器学习应用方向(一)~英文姓名消歧(name disambiguation)
基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据,将其映射为一段64位或128位的二进制数字串,用以表征每条数据记录中的独特个体,将文本相似度比较转化为语义指纹相似度比较。是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。基于机器学习的方法较好地克服了规则方法的方法,在不同的专利发
1. 姓名歧义
姓名歧义性是指不同来源的实体对象共用同一个姓名,尤其是在整合不同的网页和数据库时,姓名歧义现象会因姓名缩写或假名等更加严重,造成数据库检索结果不准确[9]。
专利发明人姓名歧义是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。
2. 重名辨识方法研究现状
(1) 基于规则的方法
基于规则的方法稳定性较差,在不同的专利发明人重名辨识环境中表现较差。
(2)基于机器学习的方法
基于机器学习的方法较好地克服了规则方法的方法,在不同的专利发明人重名辨识环境中效果良好,但该方法在大规模专利数据中计算成本高。
(3)基于语义指纹的方法
基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据,将其映射为一段64位或128位的二进制数字串,用以表征每条数据记录中的独特个体,将文本相似度比较转化为语义指纹相似度比较。
(4)基于唯一标识的方法
基于唯一标识的方法没有形成统一的行业标准和执行规范,而且无法辨识已有专利的发明人。
参考文献:
于永胜, 董诚, 韩红旗等. USPTO 专利发明人重名辨识方法综述[J]. 天津科技. 2018,45(2): 22-27.
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)