一、什么是知识图谱?

  • 定义:知识图谱(Knowledge Graph, KG)是一种用 图结构(节点+边)来组织和表达知识的方法。

    • 节点(实体):人、事物、概念等
    • 边(关系):实体之间的语义联系
    • 属性:描述实体特征的信息

简单理解:它是“关系型百科全书”,不仅告诉你“是什么”,还告诉你“它与什么有关”。


二、系统化(与知识图谱相关但在其外部的元素)

  • 数据来源环境:数据库、文本、网页、传感器、日志
  • 计算支撑环境:自然语言处理(NLP)、知识抽取、图数据库
  • 应用交互环境:搜索引擎、问答系统、推荐系统、智能助理
  • 设计约束:实时性、可扩展性、数据质量、知识更新

👉 这些外部条件决定了知识图谱能否落地,以及以什么方式落地。


三、全局化(组成知识图谱的核心元素,按维度展开)

1. 数据维度

  • 结构化数据(如数据库中的表)
  • 半结构化数据(如JSON、XML)
  • 非结构化数据(如文本、文档、网页、对话记录)

2. 知识构建维度

  • 实体识别(从文本中找到人、地、物)
  • 关系抽取(发现实体间的语义关系)
  • 知识融合(解决不同来源的歧义、同义)
  • 知识推理(基于已知关系推出新知识)

3. 存储与管理维度

  • 图数据库(Neo4j、JanusGraph)
  • RDF 三元组存储(subject-predicate-object)
  • SPARQL 等查询语言

4. 应用维度

  • 语义搜索(理解“语义”而不是关键词匹配)
  • 智能问答(像百科式对话)
  • 推荐系统(基于知识图谱的关联推荐)
  • 风控、金融、医疗、政务等垂直行业应用

四、结构化(元素之间的关系)

  • 数据来源 → 知识抽取 → 知识图谱存储 → 应用
  • 实体 ↔ 关系 ↔ 属性 三元组结构构成知识图谱的核心。
  • 知识图谱 ↔ RAG:图谱提供结构化知识,RAG 提供灵活的自然语言生成。

五、知识图谱的构建、保存与使用

  1. 生成(构建)

    • 数据收集 → 文本清洗
    • 实体识别(NER)
    • 关系抽取(RE)
    • 构建三元组(实体–关系–实体)
    • 知识融合(统一命名、消歧义)
    • 知识推理(补充缺失关系)
  2. 保存

    • 存储在图数据库(Neo4j、TigerGraph)
    • 使用 RDF/OWL 格式进行语义存储
    • 支持 SPARQL/Gremlin 等查询
  3. 使用

    • 查询(SPARQL)
    • 语义搜索(增强信息检索)
    • 驱动推荐、QA、决策系统
    • 与大模型结合进行问答和推理

六、知识图谱与 RAG 的结合

RAG(检索增强生成)的流程是:

  1. 用户提问
  2. 系统从知识库中检索相关信息
  3. 把检索到的信息作为上下文提供给大模型
  4. 大模型生成更精准的回答

结合方式

  • 传统 RAG:检索基于向量数据库(语义相似度)

  • 知识图谱增强 RAG

    1. 检索阶段 → 不仅用语义相似度,还用知识图谱中的“关系路径”进行语义扩展。

      • 例:用户问“爱因斯坦的学生有哪些?” → KG 能沿着“师生关系”找到答案
    2. 提示阶段 → 把知识图谱三元组作为补充上下文输入大模型

    3. 推理阶段 → 结合 KG 的逻辑关系,避免模型编造(hallucination)

👉 好处:减少幻觉,回答更可解释。


七、总结一句话

  • 知识图谱 = 有关系的百科
  • 场景 = 搜索、问答、推荐、风控、医疗、金融等
  • 构建流程 = 数据收集 → 知识抽取 → 融合 → 存储 → 使用
  • 与 RAG 结合 = 用图谱做语义补充和逻辑推理,让大模型更准确、更可控
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐