Graphusion：基于零样本LLM的知识图谱构建框架

Graphusion是一个基于零样本大型语言模型（LLM）的知识图谱构建框架，旨在从自由文本中自动构建高质量的科学知识图谱。该框架主要包含三个关键步骤：种子实体生成、候选三元组抽取和知识图谱融合。以下将对这三个步骤进行详细介绍。

程序员笑武

1245人浏览 · 2024-11-05 20:29:38

程序员笑武 · 2024-11-05 20:29:38 发布

知识图谱作为人工智能领域的重要技术之一，在智能问答、语义搜索、推荐系统等方面发挥着关键作用。然而，传统知识图谱构建方法如人工标注、基于规则抽取等，存在成本高、灵活性差等问题。随着深度学习和自然语言处理技术的不断进步，基于大型语言模型的知识图谱构建[GraphRAG原理深入剖析-知识图谱构建]方法逐渐被大家重视，它们能够自动从自由文本中抽取知识，大大降低了构建成本，提高了构建效率。Graphusion作为其中的佼佼者，凭借其独特的零样本构建能力和全局融合策略，在知识图谱构建领域取得了显著成果。

一、Graphusion框架概述

1.1 种子实体生成

种子实体生成是Graphusion框架的第一步，旨在从自由文本中提取与主题相关的关键实体，作为后续知识抽取的起点。为了实现这一目标，Graphusion采用了BERTopic等主题建模方法，对输入文本进行主题分析，识别出每个主题下的代表性实体。这些代表性实体被作为种子实体，用于引导后续的三元组抽取过程。通过种子实体生成，Graphusion能够确保在知识抽取过程中关注到最相关、最具代表性的实体，从而提高抽取的准确性和效率。

1.2 候选三元组抽取

候选三元组抽取是Graphusion框架的第二步，旨在从自由文本中抽取出与种子实体相关的三元组（头实体-关系-尾实体）。为了实现这一目标，Graphusion利用大型语言模型（LLM）进行实体和关系的识别与抽取。具体来说，Graphusion首先根据种子实体，引导LLM提取出与这些实体相关的其他实体，并识别它们之间的关系。然后，Graphusion利用LLM的推理能力，发现新的三元组，即使这些三元组在初始时并不包含种子实体。这一过程确保了种子实体在引导实体抽取过程中的主导作用，同时充分利用了LLM的强大推理能力，提高了三元组抽取的准确性和全面性。

1.3 知识图谱融合

知识图谱融合是Graphusion框架的第三步，也是其独特之处。在前面的步骤中，Graphusion已经从自由文本中抽取出了大量的候选三元组。然而，这些三元组往往是从局部视角抽取的，可能存在冲突、冗余或错误。为了解决这个问题，Graphusion设计了一个全局融合模块，对抽取出的三元组进行全局视角下的融合处理。该模块主要包含三个功能：实体合并、冲突解决和新颖三元组发现。通过实体合并，Graphusion能够合并语义上相似的实体，避免重复；通过冲突解决，Graphusion能够解决不同三元组之间的冲突关系，选择最合理的关系；通过新颖三元组发现，Graphusion能够从背景文本中推断出新的三元组，丰富知识图谱的内容。这一过程确保了Graphusion构建的知识图谱在全局视角下的一致性和准确性。

二、Graphusion构建图谱对比

我们采用了 ACL 会议 2017 - 2023 年的会议论文作为数据集，共包含 4605 篇有效论文，分别在四种不同的 LLMs 设置上实现 Graphusion，包括 LLaMa3-70b、GPT3.5、GPT-4 和 GPT-4o。然后与GPT - 4o Local进行比较，该模型等同于 Graphusion 模型去掉融合步骤。

实验结果表明，在所有测试方法中，使用 GPT-4o 的 Graphusion 在实体和关系评级方面都取得了最高性能。当省略融合步骤时，性能从 2.37 显著下降到 2.08，这表明融合步骤在提高 Graphusion 内关系质量方面起着至关重要的作用。

通过案例研究发现，GraphRAG [GraphRag-知识图谱结合LLM 的检索增强]有时会提取过于通用的术语，而 Graphusion 的融合步骤能够合并相似实体并解决关系冲突，还能推断出输入中不存在的新三元组，但在实体识别方面可能会输出准确性较低的三元组。

三、Graphusion 的优势与局限性

（一）优势

全局视角构建Graphusion 框架通过知识图谱融合步骤，能够将局部知识整合到全局上下文中，克服了许多基于局部视角的 KGC 框架的局限性，从而构建出更全面、准确的知识图谱。
利用自由文本输入为自由文本而非预定义的实体列表，这使得该框架在实际应用中更具灵活性和适用性，能够处理各种自然语言文本来源的知识图谱构建任务。
性能优势在知识图谱构建和链接预测实验中，Graphusion 都取得了较好的性能表现，尤其是融合步骤对提高关系质量起到了关键作用，同时在 TutorQA 基准数据集上的问答任务中也展现出相对于基线的显著优势。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述