机器学习应用方向(一)～英文姓名消歧(name disambiguation)

基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据，将其映射为一段64位或128位的二进制数字串，用以表征每条数据记录中的独特个体，将文本相似度比较转化为语义指纹相似度比较。是指当数据库查询或关联某个发明人的专利时，往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接，使得基于专利发明人的科研技术研究结果出现偏差。基于机器学习的方法较好地克服了规则方法的方法，在不同的专利发

天狼啸月1990

1603人浏览 · 2020-04-15 22:24:45

天狼啸月1990 · 2020-04-15 22:24:45 发布

1. 姓名歧义

姓名歧义性是指不同来源的实体对象共用同一个姓名，尤其是在整合不同的网页和数据库时，姓名歧义现象会因姓名缩写或假名等更加严重，造成数据库检索结果不准确[9]。

专利发明人姓名歧义是指当数据库查询或关联某个发明人的专利时，往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接，使得基于专利发明人的科研技术研究结果出现偏差。

2. 重名辨识方法研究现状

(1) 基于规则的方法

基于规则的方法稳定性较差，在不同的专利发明人重名辨识环境中表现较差。

(2)基于机器学习的方法

基于机器学习的方法较好地克服了规则方法的方法，在不同的专利发明人重名辨识环境中效果良好，但该方法在大规模专利数据中计算成本高。

(3)基于语义指纹的方法

基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据，将其映射为一段64位或128位的二进制数字串，用以表征每条数据记录中的独特个体，将文本相似度比较转化为语义指纹相似度比较。

(4)基于唯一标识的方法

基于唯一标识的方法没有形成统一的行业标准和执行规范，而且无法辨识已有专利的发明人。

参考文献：

于永胜, 董诚, 韩红旗等. USPTO 专利发明人重名辨识方法综述[J]. 天津科技. 2018,45(2): 22-27.

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r