NabulaGraph + LLM 处理风控知识图谱的探索和实践

在当前数据驱动的时代，图数据库与大语言模型（如 GPT）正逐步融合，为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术，应用平台不仅能够支持结构化数据的查询，还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域，随着图数据库的规模化和大语言模型的推理能力的提升，系统能够实时响应复杂的风险场景，提供个性化的决策支持。

脱泥不tony

1384人浏览 · 2025-02-03 07:30:00

脱泥不tony · 2025-02-03 07:30:00 发布

导读在当前数据驱动的时代，图数据库与大语言模型（如 GPT）正逐步融合，为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术，应用平台不仅能够支持结构化数据的查询，还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域，随着图数据库的规模化和大语言模型的推理能力的提升，系统能够实时响应复杂的风险场景，提供个性化的决策支持。未来，随着交互式查询和智能分析的进一步发展，图谱技术将在各种行业中大显身手，推动自动化和智能化的转型，提升数据分析和决策的效率和准确性。

主要内容包括以下几个部分：

在 NebulaGraph 上构建应用风控图谱的成熟实践
LLM 基于图可以做什么？
NebulaGraphRAG 应用平台和开发者 SDK
问答环节

在 NebulaGraph 上构建应用风控图谱的成熟实践

在当今数据驱动的世界中，图数据库作为一种强大的数据结构，凭借其高效的查询性能和灵活的关联分析能力，正日益成为金融、风控等领域的核心技术之一。

NebulaGraph 是一款开源的超大规模图数据库，支持毫秒级延迟，采用分布式架构，能够保证在大规模数据环境下的高效查询和高可用性。NebulaGraph 5.0 商业版目前尚未开源，是业界第一家原生支持 ISO GQL 的图数据库。

接下来分享 NebulaGraph 在风控领域的一些成熟实践。

在金融实时风控场景中，图数据库可以帮助实时监控和分析交易行为。以商户付款为例，当用户进行支付操作时，这个行为就形成了一个付款关系。在这种场景下，实时风控要求在用户付款的几秒钟内完成风险判定，并做出相应的处理决策。因此，对图数据库查询性能的要求极为高效，必须具备毫秒级响应能力。客户基于 NebulaGraph 构造了百亿级反欺诈图，以满足实时风控需求。

除了实时分析交易行为，还需要对已经落库的数据进行查询，图数据库可以实现实时查询与离线计算的融合。传统数据库中的数据通过ETL流程导入图数据库，进而可以执行更复杂的分析计算。例如，在进行社区检测等需要大量计算的任务时，图数据库能够高效处理异步操作和大规模数据计算。在图数据库中，我们可以执行更复杂的计算任务，如：

社区检测： 通过分析客户之间的关系网络，检测潜在的虚假账户群体。
路径分析： 通过分析用户行为路径，识别出不合规或异常行为模式。
行为模式识别： 通过对用户行为的深入分析，识别出潜在的欺诈行为或恶意攻击模式。

在欺诈分析中，图数据库提供了强大的图指标分析能力。例如，在发卡风控场景中，通过分析申请人的单位、家庭、设备等维度的关联，图数据库能够构建一个业务知识图谱。该知识图谱不仅能够识别欺诈行为，还能够揭示异常的申请人模式。例如，某些账号可能存在相似的行为模式，或不同账号之间的关联性异常，这些都可以通过图算法识别出来。

平台分析模块中，提供了快速构建图谱规则和指标定义的能力，可以快速将各类业务逻辑进行转换，并基于规则对指标进行计算分析。

更进一步，图数据库还可以应用社区检测算法。通过客户关系、转账 IP、设备号、联系电话等多个维度，将客户划分为多个社群，并计算各个社群之间的关联强度。通过这些社群指标，能够有效挖掘可疑个体，提升风控规则的覆盖率和准确性。

LLM 基于图可以做什么？

随着人工智能技术的不断发展，大模型在多个领域的应用逐渐显现出强大的潜力。对于图数据库而言，如何将大模型与图数据库结合，成为进一步提升查询能力和决策支持的关键。

一方面，基于图数据库的图结构，可以作为输入提供给大模型，使大模型具备理解和操作图的能力。另一方面，利用大模型，可以在图数据库上执行更加智能的查询，并进行深度分析。

1. Text to GQL

最直接的一个应用方式就是 Text to GQL。目前，利用大模型的代码生成能力，已经有很多成熟的 Text to SQL 应用。过去图数据库查询没有统一的语言，现在有了 ISO GQL，通过标准 GQL 数据的累积，可以训练大模型，使其能够提供 Text to GQL 的能力，从而实现直接使用自然语言进行图数据库查询。在当前 Text to GQL 能力不足的情况下，可以利用规则对代码进行校正，以提高准确率。

2. 让 Agent 理解图谱

进一步，大模型要能够理解从图数据库读取到的数据。读取到的点边关系，可以序列化为 text，输入大模型，再加上一些 prompt 提示大模型其语义，以便大模型更好地理解数据。

3. Chain of Exploration 探索链

结合查询和理解图的能力，就可以构成一个“探索链”（Chain of Exploration）。大模型可以通过制定探索计划，逐步执行查询任务，形成一个闭环。具体来说，首先，大模型会根据给定的任务，制定查询计划，确定查询的子图或路径；然后，大模型执行查询，获取结果，并进一步分析这些结果。基于这些分析，模型可以继续调整查询策略，直到达到预期目标。

这种方法不仅仅是单次查询的执行，更是一个持续优化和反馈的过程，形成了一个智能化的查询与决策链条。通过不断的迭代，图数据库能够与大模型结合，实现更高效、更智能的查询和数据分析。

4. 从非结构化数据到半结构化知识图谱

除了结构化数据，对于非结构化数据（如文本、图片、音频等），也可以提取成知识图谱的形式，再利用结构化查询的能力进行查询。

通过文本抽取技术，可以将文本数据转化为三元组（如 “Harry Potter”, “has parents”, “James Potter”），这是最基本的知识图谱表示方式。这样的三元组可以通过图数据库进行存储和查询，以便提取出其中的关系和实体。

然而，对于一些复杂的场景，不仅是简单的三元组，还需要考虑节点和边的类型，以及附带的时间、位置等属性。这就产生了半结构化知识图谱的概念，即图谱中的数据虽然大部分还是来自于文本，但它已经包含了某些结构化的信息，例如时间戳、实体类型等。例如，“Harry Potter”可能有多个类型的关联（Person、Location、Book 等），而这些关系和属性可以帮助在查询时进行过滤。

这种半结构化知识图谱不仅能够表示实体及其关系，还能通过带有时间、地点等属性的附加信息来进行更复杂的查询。例如，在风控场景下，我们可以根据时间区间或地点限制来查询某些特定行为是否发生过，从而提高查询精度。

构建图谱类型可以按两个维度划分为四个区间，如上图所示。一个维度是领域特定型或通用型，领域特定指的是有明确的点边类型，而通用则是无明确类型，介于两者之间也有一些半结构化的类型，比如带有类型和属性，但主要信息在文本中。另一个维度是分析型或知识型，分析型是利用大模型生成 GQL 查询语句，获得结构化的查询结果；而知识型更注重总结查询结果的能力，以自然语言的形式给出总结报告。

5. 图谱的分层管理

在 NebulaGraph 中可以实现图谱的分层管理。如上图中所示，红色点为 Harry Potter 小说，黄色点是由小说切分出的 text 片段，绿色点是基于黄色点的片段中抽取出来的知识图谱，最后蓝色点是从知识图谱中获取的一些结构化的洞见。

这里得到蓝色点采用的方法是微软的 From Local to Global 的方法。该方法是在知识图谱上，通过社区检测划分出不同的社区，进行分层总结，从而在半结构化知识图谱中隐式地提取出图结构信息。

NebulaGraph 作为一款数据库，还需要提供数据库相关操作和管理的能力。在 NebulaGraph 上，可以实现元数据、原始数据、索引、知识图谱、知识报告的统一存储、统一管理。例如，黄色点这些文本 chunks 中带有 embedding 信息，可以进行向量检索，实现传统 RAG；在绿色点上，可以做 Text to GQL，实现知识图谱的查询；而在蓝色点上进行向量检索，则可以获得经过总结的具有全局视野的结果。

除了查询方面的能力，基于统一存储，还可以实现便捷的增删改操作。例如，如果需要删除某个节点，可以同时删除与之相关的边和子图，从而保证数据的一致性和完整性。

NebulaGraphRAG 应用平台和开发者 SDK

最后，介绍一下 NebulaGraphRAG 应用平台和开发者 SDK。

NebulaGraphRAG 应用平台，是类似于传统 RAG 的基于图谱的问答系统。当然，我们也意识到问答形式的局限性，因此也在考虑扩展更多交互形式，提升系统的灵活性和用户体验。

图数据库与 RAG 结合的优势在于，不仅能够进行结构化的数据查询，还能够支持更复杂的全局性分析和推理。通过 GraphRAG 的支撑，能够为用户提供更加丰富的信息处理能力。

未来，系统会在已有的结构化图谱基础上，进一步扩展功能，使其能够支持智能分析。具体而言，利用 Agent 技术来调用规则库，可以自动化处理复杂的业务规则，并根据查询结果做出相应的推理和决策，从而进一步提升风控和其他业务分析的智能化水平。同时，Graph 与交互系统的深度集成将由开发者工具 SDK 提供全面支持，确保开发者可以在平台上高效构建自己的应用。

问答环节

Q1**：前端集成 LLM 和 Agent 功能**

是否考虑将 LLM 或 Agent 功能集成到前端界面，如 explorer 工具中，以便提升用户体验。

A1：目前有可能实现这种集成，尤其是在 explorer 工具中，作为前端的一个载体，便于展示和使用 LLM 及 Agent 功能。

Q2**：GraphRAG 的成本和效益**

GraphRAG 如何解决成本问题，特别是在与传统向量嵌入（Vector Embedding）方法的比较下，是否更具优势。

A2：GraphRAG 并不完全取代传统向量嵌入，而是作为一种增强手段，特别是在结构化查询能力和全局性问题的解决上有独特优势。通过构建知识图谱和社区报告（community report），GraphRAG 能够有效处理复杂的关系和全局性问题，其构建过程可能较为昂贵，但查询成本相对较低。此外，可以通过延迟构建和选择较小的模型来优化成本，平衡效果和性能。

Q3**：构建社区报告的成本优化**

构建多个社区报告时，如何避免频繁的 API 调用和数据更新带来的高成本。

A3：为了减少成本，可以采用“懒加载”策略，在真正需要时才生成社区报告。此外，对于数据更新所需的整个图重建问题，可以通过量化数据失效的程度来降低重建频率。例如，当图中的数据失效程度低于一定阈值时，可以容忍其不重建，降低系统负担。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda