在这里插入图片描述
信息抽取的三个最重要,最受关注的子任务:

  • 实体抽取

    • 命名实体识别,包括实体检测(find)和分类(classify)
  • 关系抽取。

    • 通常我们所述的三元组抽取, 一个谓词(predicate)带2个形参(argument),如:Founding-location(IBM,New York)
  • 事件抽取

    • 相当于一种多元关系抽取。

ACE的17类关系:

在这里插入图片描述
具体应用实例:
在这里插入图片描述

实体抽取

实体抽取或者说命名实体识别9NER),在信息抽取中扮演者重要角色,主要抽取的是文本中的原子信息元素。如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify
找到命名实体,并进行分类:
在这里插入图片描述

主要应用:

  • 命名实体作为索引和超链接。
  • 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类。
  • 关系抽取的准备步骤。
  • QA系统,大多数答案都是命名实体。

方法

传统机器方法

序列模型

有向图模型HMMHMMHMM
无向图模型CRFCRFCRF在这里插入图片描述

总结

  • 慢慢的将各种的信息抽取有关模型及实战,将其搞定。会自己进行整理与文档处理都行啦的样子与打算。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐