49bd31e0a627c3685dad98c7fbcca4d6.png
文献题目:Multi-view knowledge graph embedding for entity alignment
文献来源:IJCAI,2019
文献原文:https://arxiv.org/pdf/1906.02390.pdf

Abstract

本文提出了一种基于多视图知识图谱嵌入的实体对齐框架,称为 MultiKE。该模型根据实体名称、 关系和属性三种视图嵌入实体,设计组合策略获得最终的实体表示,并设计了交叉 KG 推理来增强两个 KG 之间的实体对齐。

1、Introduction

实体对齐的目的是在不同的 KG 中找到具有相同真实世界身份的实体。传统的实体对齐方法基于符号识别相似的实体,然而特征相似度的计算往往会受到不同 KG 之间语义异质性的影响。最近,KG 嵌入技术越发受到关注,其关键思想是学习 KG 的向量表示(嵌入),并根据嵌入的相似性找到对齐实体。基于嵌入的实体对齐方法存在以下两个局限性:

  • KG 中的实体具有各种特性,但是当前基于嵌入的实体对齐方法只利用其中的一种或两种特性。
  • 现有的基于嵌入的实体对齐方法依赖于大量的预对齐实体作为带标记训练数据。然而在实践中,种子实体获取的代价很高,甚至不可获取。

基于上述局限,本文提出 MultiKE 模型,其基本思想是将 KG 的不同特性划分为不同的子集(称为视图),而后从特定视图中学习实体嵌入,并联合优化以提高对齐性能。

190b600787a5f60b516f90b737450d26.png

如上图所示,其中,粗体表示 name view,斜体表示 relation view,常规体表示 attribute view。

2、Related Work

2.1 KG 嵌入

目前的 KG 嵌入模型可分为三类:翻译模型(Translational Models)、语义匹配模型(Semantic Matching Models)、神经模型(Neural Models)。

  • 翻译模型:Trans 系列(如 TransE、TransR),将关系解释为头部实体到尾部的平移向量
  • 语义匹配模型:使用基于相似性的函数来推断关系事实
  • 神经模型:如 ProjE、R-GCN,利用深度学习技术嵌入 KG

2.2 多视图表示学习

多视图表示学习可以获得较强的泛化性能。近年来,多视图表示学习被广泛应用于网络嵌入和 NLP 领域。一个典型的多视图表示学习过程由三个主要步骤组成:识别能够充分表示数据的多个视图、对每种视图进行表示学习、组合多个特定视图的表示。

3、Multi-view KG Embedding

3.1 问题描述

本文研究了用于实体对齐的多视图 KG 嵌入,目的是学习基于不同视图的全面实体嵌入。对于实体对齐,考虑三个视图:实体名视图、关系视图、属性视图。

将实体形式化为一个7元组数据

,其中,
表示实体、关系、属性、文字的集合,
表示实体名视图,
表示关系视图,
表示属性视图。

给定一个源 KG

,和一个目标 KG
,实体对齐旨在找到一组相同的实体

3.2 字面量嵌入

literal 由 token 序列组成,是多视图嵌入的基础。令

表示
个 token 的 literal,
是一个将输入映射到嵌入的查找函数,则:

基于预训练词嵌入,

返回输入 token 对应的词嵌入向量。如果 token 不存在于预训练词嵌入中,则利用
返回 Skip-Gram 模型在 KG literal 集合
上预训练的词嵌入的均值。利用 Auto-Encoder 以无监督的方式将 token 嵌入 编码为 literal 嵌入:

将 token 数量限制为5,长 literal 被截断,短 literal 增加占位符。

3.3 实体名视图嵌入

利用上述 literal 嵌入对实体名视图进行嵌入,定义为:

其中,

提取输入对象的实体名。

3.4 关系视图嵌入

为了保存实体之间的关系结构,采用 TransE 模型将关系解释为从头实体到尾实体的平移向量,给定关系事实

,用评分函数界定嵌入的可靠性:

其中,

表示向量范数。

3.5 属性视图嵌入

对于属性视图,利用 CNN 从实体的属性和属性值中提取特征。将属性

和属性值
的嵌入拼接到矩阵
中,给定属性事实
,用评分函数界定嵌入的可靠性:

4、Cross-KG Training for Entity Alignment

4.1 实体一致性推理

提出基于种子实体对齐的跨 KG 实体身份推断来捕获两个 KG 之间的对齐信息。

由于对齐实体指的是现实世界中的同一对象,因此认为在关系事实中交换对齐的实体会得到相同的一致性推理概率。

83ce79cc951e24eb1054913b46ce7ac3.png

如图所示,以关系视图为例。对于关系

,如果存在种子实体 (Mona Lisa,La Joconde),则用 La Joconde 替换 Mona Lisa,计算其辅助概率,(Louvre,Louvre Museum) 同理。(La Joconde 为法语“莫娜丽莎”)

属性视图下推理同理。

4.2 关系和属性一致性推理

与实体一致性推理一致,关系、属性也定义了辅助概率。由于 KG 在本体层面的异构性,不要求对齐中的关系和属性严格等价。将基于文字嵌入的实体名相似度和基于关系嵌入的语义相似性合并成为一个加权和:

其中,

5、View Combination

特定视图的嵌入从不同方面描述了实体标识,实体嵌入可以受益于多个特定视图的嵌入。

5.1 Weighted View Averaging

为了强调重要的视图,将权重分配给特定视图的实体嵌入。令

表示实体
的整体嵌入,则
,权重定义为:

5.2 Shared Space Learning

从每个特定视图中引出一个正交映射矩阵致一个共享空间,使得共享空间可以从多个特定视图嵌入空间中获取对齐信息。

5.3 In-training Combination

引入多视图嵌入的联合训练。

首先基于预训练的词嵌入与字符嵌入来训练 literal 嵌入,从而直接获得实体名称嵌入。然后对其他视图的嵌入进行训练,交替进行跨 KG 的实体、关系、属性标识推理。

6、Experiments

数据集

本文实验使用了两个数据集:DBP-WD、DBP-YG,数据集从 DBpedia、Wikidata 和 YAGO3 中采样,每个数据集包含10万个对齐实体对,其中30%用于种子实体对。

对比实验

对比了 MultiKE 与7种基于嵌入的实体对齐方法,分别为 MTransE、IPTransE、JAPE、BootEA、KDCoE、GCN-Align、AttrE。

实验设置

  • Q = 200 epoch
  • 学习率 = 0.001
  • 评价指标:Hits@1、Hits@10、MR、MRR

实验结果

f8f1852d3ee76ec12b784a06ec4d518a.png
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐