综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱笔记
综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱粗略笔记
概述
综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》思路的粗略笔记
大语言模型LLM和知识图谱KG各有优劣,希望能够找到一种互补的方式来统一LLM和KG。作者们对LLM和KG的优劣概述如下图:
作者们提出的Roadmap包括三个框架来统一LLM和KG,如下图所示:
作者进一步对三个框架进行了归类,如下图所示
-
KG-enhanced LLMs 是用KG来增强LLM,使得LLM可以减少幻觉和增加可解释性,将其分为三类:
- KG-enhanced LLM pre-training 是将KG应用在LLM的预训练阶段,可提高LLM的知识表达能力。
- KG-enhanced LLM inference 是在LLM的推理阶段利用KG,使得LLM在不需要重新训练就可以获得最新的知识。
- KG-enhanced LLM interpretability 用KG来理解LMM学习到的知识,并用来解释LLM的推理过程。
-
LLM-augmented KGs 是应用LLM来增强KG相关的任务,将其分为五类:
- LLM-augmented KG embedding 应用LLM来丰富KG的表征,主要通过编码实体和关系的文本描述来实现。
- LLM-augmented KG completion 应用LLM来编码文本或者生成事实。
- LLM-augmented KG construction 应用LLM进行实体发现、指代消解、关系抽取等图谱构建任务。
- LLM-augmented KG-to-text Generation 利用LLM来生成图谱中事实的自然语言描述。
- LLM-augmented KG question answering 用LLM作为自然语言问题和从KG中检索到答案的桥梁。
-
Synergized LLMs + KGs 志在将LLM和KG组合成一个统一的框架来互相增强,分为两类:知识表示和推理。作者还针对Synergized LLMs + KG提出了一个如下图的四层框架。
KG-enhanced LLMs
这部分主要相关研究工作如下图
KG-enhanced LLM pre-training
将KG与LLM的预训练结合可被归类为三个部分:
- Integrating KGs into training objective 专注于设计knowledge-aware的训练目标,一类方式是将更多的实体信息加入目标函数,另一类方式利用知识和文本之间的关联。
- Integrating KGs into LLM inputs 专注于将相关的知识子图与文本输入结合,比如ERNIE3.0将三元组作为文本序列直接与句子拼接。
- Integrating KGs into additional fusion modules 将KG中的信息单独处理之后再融入到LLM中,比如ERNIE用了dual encoder来分别编码输入句子和知识图谱。
KG-enhanced LLM inference
一般在QA任务应用LLM时,在LLM推理阶段结合KG来补充最新的知识,被分为两类:
- Dynamic Knowledge Fusion动态知识融合设计网络结构来在推理时融合KG里的知识
- Retrieval-Augmented Knowledge Fusion 先检索出相关知识,再将这些知识编码成隐变量后喂给输出生成器。
KG-enhanced LLM interpretability
LLM可解释性是指理解和解释LLM的内部工作机制和决策过程。使用KG来提升LLM的可解释性分为两类:
- KGs for language model probing,LLM probing是为了理解LLM中的知识是如何存储的,现有的方法主要是设计一些prompt模板和实验来验证LLM是否正确编码了KG中的知识。
- KGs for language model analysis 主要是为了回答"how do LLMs generate the results?"和 “how do the function and structure work in LLMs?”。KG中的知识用来设计实验辅助回答这些问题。
LLM-augmented KGs
这部分主要相关研究工作如下图
LLM-augmented KG embedding
考虑到传统KG向量表征一般只使用KG的节点和关系等结构信息,利用LLM对文本理解的优势,来丰富KG向量表征,分为将LLMs as Text Encoders(如下图)和 LLMs for Joint Text and KG Embedding两类。
LLM-augmented KG completion
KG completion是对给定的知识图谱推理出缺失的信息,与LLM-augmented KG embedding 类似,LLM的文本理解优势也被用来进行KG completion,现有方法主要分为 LLM as Encoders (PaE)和LLM as Generators (PaG)
LLM-augmented KG construction
KG构建过程包括实体发现、指代消解、关系抽取等多个阶段,在知识图谱构建中使用LLM的整体示意如下图。除此之外现在研究也关注端到端的知识图谱构建和从LLM中蒸馏知识图谱。
LLM-augmented KG-to-text Generation
KG-to-text Generation的目标是为了生成能够准确地描述知识图谱信息的高质量文本,研究主要分为leverage knowledge from LLMs 和 construct large-scale weakly-supervised KG-text corpus
LLM-augmented KG question answering
LLM用于Knowledge graph question answering (KGQA)的框架如下图,LLM被用作entity/relation extractors, 和 answer reasoners
SYNERGIZED LLMS + KGS
这部分的相关代表研究如下图:
Knowledge Representation一般框架如下图
未来方向
- KG用来检测LLM中的幻觉
- KG用来编辑LLM中的知识
- KG对LLM进行知识注入(knowledge injuection)
- 多模态LLM与KG
- LLM用来理解KG结构
- 协同LLM和KG进行双向推理

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)