知识抽取与挖掘

本文内容仅仅是一个学习内容的梳理，无具体知识点的细节。

Swayzzu

2005人浏览 · 2021-12-06 10:59:13

Swayzzu · 2021-12-06 10:59:13 发布

目录

一、知识抽取定义

二、知识抽取关键技术

三、面向非结构化数据的抽取任务

①关系抽取举例

②关系抽取方法

四、面向结构化数据的抽取任务

五、面向半结构化数据的抽取任务

1.百科类数据

2.网页类数据

①手工方式提取

②包装器方式抽取

③自动抽取

一、知识抽取定义

从不同来源，不同结构的数据中，进行知识的提取，并形成知识，存入到知识图谱

二、知识抽取关键技术

根据知识的来源，有来自于结构化数据，链接数据，半结构化数据，以及文本数据，每一个数据来源，都有对应的关键技术难点，如下图所示

三、面向非结构化数据的抽取任务

1.实体识别

如下，句子中类似于地点信息，时间信息，人物信息等等，只要是我们需要的重点信息，都可以认为是实体。

通常，我们可以使用序列标注，进行实体实体识别，比如HMM，或者CRF，Bi-LSTM方法等。

2.关系抽取

①关系抽取举例

如下图所示，根据一句话，我们可以抽取出实体之间的关系，比如王健林和王思聪是父子关系等。

②关系抽取方法

这里只做总结，不进行详细描述。

基于模板的方法：

→设定触发词，比如“老婆”，那么文本中出现“老婆”的时候，它的前后的实体就可能是夫妻关系。

→基于依存句法，比如A现身于B，这里“现身于”是核心词，A和B可能是定语、宾语，这样就可以根据语法来抽取关系。

监督学习方法：

重点是特征设计，可以使用以下内容作为特征

模型可以使用Bi-LSTM+attention，CNN+attention等

半监督学习方法：

→远程监督方法：比如知识库中存在“创始人（乔布斯，苹果公司）”，那么就可以从非结构化文本中，把包含这两个实体的句子，作为训练样例。

→bootstrapping方法：之前有写文章介绍过，以及改进版的snowball，这里不再描述。

3.事件抽取

相关术语：

举例如下：

事件抽取中，联合抽取方法效果相对较好，也就是通过多个模型，进行联合预测。

四、面向结构化数据的抽取任务

通过比如D2R, Vitruoso, Morph等工具，以及Direct Mapping或R2RML等语言，将数据提取。

Direct Mapping 举例如下：

R2RML 举例如下：

五、面向半结构化数据的抽取任务

1.百科类数据

比如维基百科等，通常都会有自己的数据的目录，以及对知识的具体描述

通过映射，将半结构化的数据存入知识库。

2.网页类数据

①手工方式提取

上面是通过XPath进行的提取，也可以通过CSS：

②包装器方式抽取

举例如下：

③自动抽取

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。

cover

小杰机器学习（seven）——贝叶斯分类

所有评论(0)

查看更多评论

Swayzzu

已为社区贡献6条内容