知识图谱 (2)半结构化数据的知识抽取
1. 半结构化数据定义类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。使用它提取信息流程为:2.百科类知识抽取3. Web网页数据抽取:包装器生成现在我们的目标网站是部分结构化的,如:
·
1. 半结构化数据定义
类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。
-
对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。
-
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。
使用它提取信息流程为:
2.百科类知识抽取
3. Web网页数据抽取:包装器生成
现在我们的目标网站是部分结构化的,如:
-
包装器归纳
借助基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。 -
自动抽取
对于监督学习我们知道标注数据是它的短板,因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)