1. 一些网站会直接提供实体词典,如搜狗词典;
  2. 可以从结构化/半结构化数据中挖掘实体词典,例如百度百科、医学网站的Link等等;
  3. 从文本中挖掘。用户可能提供一些非标准化表达,这时候就需要用到新词挖掘技术,可以参考美团搜索的新词挖掘技术:

 

获取实体词典后,要根据任务特点和数据特点选择实体词典的使用方式。

有时候需要对实体词典做质量评估和筛选、分类,例如把歧义性高的实体组成一个词典,歧义词低的实体组成一个词典,新词组成一个词典等等。

词典的质量评估,包括词典大小、词典准确度、覆盖度、实体歧义性、实体频率...完整全面地了解词典,才能更高地选择使用方式。

关于使用方式,可以结合到NER模型里面使用,也可以单独匹配,也可以匹配后再与模型结合。

关于结合到NER模型的方式,可以调研已有的论文,大多都是构建词典特征,然后作为bilstm等编码器的输入。构建词典特征的方式也要根据任务和数据来设计。

关于匹配的方式,可以直接匹配,也可以先分词再匹配,例如对文本分词后匹配,或者对词典的item也分词,然后再匹配。

上述使用方式都对应解决不同的问题。

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐