NabulaGraph + LLM 处理风控知识图谱的探索和实践
在当前数据驱动的时代,图数据库与大语言模型(如 GPT)正逐步融合,为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术,应用平台不仅能够支持结构化数据的查询,还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域,随着图数据库的规模化和大语言模型的推理能力的提升,系统能够实时响应复杂的风险场景,提供个性化的决策支持。
导读 在当前数据驱动的时代,图数据库与大语言模型(如 GPT)正逐步融合,为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术,应用平台不仅能够支持结构化数据的查询,还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域,随着图数据库的规模化和大语言模型的推理能力的提升,系统能够实时响应复杂的风险场景,提供个性化的决策支持。未来,随着交互式查询和智能分析的进一步发展,图谱技术将在各种行业中大显身手,推动自动化和智能化的转型,提升数据分析和决策的效率和准确性。
主要内容包括以下几个部分:
-
在 NebulaGraph 上构建应用风控图谱的成熟实践
-
LLM 基于图可以做什么?
-
NebulaGraphRAG 应用平台和开发者 SDK
-
问答环节
01
在 NebulaGraph 上构建应用风控图谱的成熟实践
在当今数据驱动的世界中,图数据库作为一种强大的数据结构,凭借其高效的查询性能和灵活的关联分析能力,正日益成为金融、风控等领域的核心技术之一。

NebulaGraph 是一款开源的超大规模图数据库,支持毫秒级延迟,采用分布式架构,能够保证在大规模数据环境下的高效查询和高可用性。NebulaGraph 5.0 商业版目前尚未开源,是业界第一家原生支持 ISO GQL 的图数据库。
接下来分享 NebulaGraph 在风控领域的一些成熟实践。

在金融实时风控场景中,图数据库可以帮助实时监控和分析交易行为。以商户付款为例,当用户进行支付操作时,这个行为就形成了一个付款关系。在这种场景下,实时风控要求在用户付款的几秒钟内完成风险判定,并做出相应的处理决策。因此,对图数据库查询性能的要求极为高效,必须具备毫秒级响应能力。客户基于 NebulaGraph 构造了百亿级反欺诈图,以满足实时风控需求。

除了实时分析交易行为,还需要对已经落库的数据进行查询,图数据库可以实现实时查询与离线计算的融合。传统数据库中的数据通过ETL流程导入图数据库,进而可以执行更复杂的分析计算。例如,在进行社区检测等需要大量计算的任务时,图数据库能够高效处理异步操作和大规模数据计算。在图数据库中,我们可以执行更复杂的计算任务,如:
-
社区检测: 通过分析客户之间的关系网络,检测潜在的虚假账户群体。
-
路径分析: 通过分析用户行为路径,识别出不合规或异常行为模式。
-
行为模式识别: 通过对用户行为的深入分析,识别出潜在的欺诈行为或恶意攻击模式。

在欺诈分析中,图数据库提供了强大的图指标分析能力。例如,在发卡风控场景中,通过分析申请人的单位、家庭、设备等维度的关联,图数据库能够构建一个业务知识图谱。该知识图谱不仅能够识别欺诈行为,还能够揭示异常的申请人模式。例如,某些账号可能存在相似的行为模式,或不同账号之间的关联性异常,这些都可以通过图算法识别出来。


平台分析模块中,提供了快速构建图谱规则和指标定义的能力,可以快速将各类业务逻辑进行转换,并基于规则对指标进行计算分析。

更进一步,图数据库还可以应用社区检测算法。通过客户关系、转账 IP、设备号、联系电话等多个维度,将客户划分为多个社群,并计算各个社群之间的关联强度。通过这些社群指标,能够有效挖掘可疑个体,提升风控规则的覆盖率和准确性。
02
LLM 基于图可以做什么?
随着人工智能技术的不断发展,大模型在多个领域的应用逐渐显现出强大的潜力。对于图数据库而言,如何将大模型与图数据库结合,成为进一步提升查询能力和决策支持的关键。
一方面,基于图数据库的图结构,可以作为输入提供给大模型,使大模型具备理解和操作图的能力。另一方面,利用大模型,可以在图数据库上执行更加智能的查询,并进行深度分析。
1. Text to GQL

最直接的一个应用方式就是 Text to GQL。目前,利用大模型的代码生成能力,已经有很多成熟的 Text to SQL 应用。过去图数据库查询没有统一的语言,现在有了 ISO GQL,通过标准 GQL 数据的累积,可以训练大模型,使其能够提供 Text to GQL 的能力,从而实现直接使用自然语言进行图数据库查询。在当前 Text to GQL 能力不足的情况下,可以利用规则对代码进行校正,以提高准确率。
2. 让 Agent 理解图谱

进一步,大模型要能够理解从图数据库读取到的数据。读取到的点边关系,可以序列化为 text,输入大模型,再加上一些 prompt 提示大模型其语义,以便大模型更好地理解数据。
3. Chain of Exploration 探索链

结合查询和理解图的能力,就可以构成一个“探索链”(Chain of Exploration)。大模型可以通过制定探索计划,逐步执行查询任务,形成一个闭环。具体来说,首先,大模型会根据给定的任务,制定查询计划,确定查询的子图或路径;然后,大模型执行查询,获取结果,并进一步分析这些结果。基于这些分析,模型可以继续调整查询策略,直到达到预期目标。
这种方法不仅仅是单次查询的执行,更是一个持续优化和反馈的过程,形成了一个智能化的查询与决策链条。通过不断的迭代,图数据库能够与大模型结合,实现更高效、更智能的查询和数据分析。
4. 从非结构化数据到半结构化知识图谱
除了结构化数据,对于非结构化数据(如文本、图片、音频等),也可以提取成知识图谱的形式,再利用结构化查询的能力进行查询。

通过文本抽取技术,可以将文本数据转化为三元组(如 “Harry Potter”, “has parents”, “James Potter”),这是最基本的知识图谱表示方式。这样的三元组可以通过图数据库进行存储和查询,以便提取出其中的关系和实体。
然而,对于一些复杂的场景,不仅是简单的三元组,还需要考虑节点和边的类型,以及附带的时间、位置等属性。这就产生了半结构化知识图谱的概念,即图谱中的数据虽然大部分还是来自于文本,但它已经包含了某些结构化的信息,例如时间戳、实体类型等。例如,“Harry Potter”可能有多个类型的关联(Person、Location、Book 等),而这些关系和属性可以帮助在查询时进行过滤。
这种半结构化知识图谱不仅能够表示实体及其关系,还能通过带有时间、地点等属性的附加信息来进行更复杂的查询。例如,在风控场景下,我们可以根据时间区间或地点限制来查询某些特定行为是否发生过,从而提高查询精度。

构建图谱类型可以按两个维度划分为四个区间,如上图所示。一个维度是领域特定型或通用型,领域特定指的是有明确的点边类型,而通用则是无明确类型,介于两者之间也有一些半结构化的类型,比如带有类型和属性,但主要信息在文本中。另一个维度是分析型或知识型,分析型是利用大模型生成 GQL 查询语句,获得结构化的查询结果;而知识型更注重总结查询结果的能力,以自然语言的形式给出总结报告。
5. 图谱的分层管理

在 NebulaGraph 中可以实现图谱的分层管理。如上图中所示,红色点为 Harry Potter 小说,黄色点是由小说切分出的 text 片段,绿色点是基于黄色点的片段中抽取出来的知识图谱,最后蓝色点是从知识图谱中获取的一些结构化的洞见。
这里得到蓝色点采用的方法是微软的 From Local to Global 的方法。该方法是在知识图谱上,通过社区检测划分出不同的社区,进行分层总结,从而在半结构化知识图谱中隐式地提取出图结构信息。
NebulaGraph 作为一款数据库,还需要提供数据库相关操作和管理的能力。在 NebulaGraph 上,可以实现元数据、原始数据、索引、知识图谱、知识报告的统一存储、统一管理。例如,黄色点这些文本 chunks 中带有 embedding 信息,可以进行向量检索,实现传统 RAG;在绿色点上,可以做 Text to GQL,实现知识图谱的查询;而在蓝色点上进行向量检索,则可以获得经过总结的具有全局视野的结果。
除了查询方面的能力,基于统一存储,还可以实现便捷的增删改操作。例如,如果需要删除某个节点,可以同时删除与之相关的边和子图,从而保证数据的一致性和完整性。
03
NebulaGraphRAG 应用平台和开发者 SDK
最后,介绍一下 NebulaGraphRAG 应用平台和开发者 SDK。

NebulaGraphRAG 应用平台,是类似于传统 RAG 的基于图谱的问答系统。当然,我们也意识到问答形式的局限性,因此也在考虑扩展更多交互形式,提升系统的灵活性和用户体验。
图数据库与 RAG 结合的优势在于,不仅能够进行结构化的数据查询,还能够支持更复杂的全局性分析和推理。通过 GraphRAG 的支撑,能够为用户提供更加丰富的信息处理能力。
未来,系统会在已有的结构化图谱基础上,进一步扩展功能,使其能够支持智能分析。具体而言,利用 Agent 技术来调用规则库,可以自动化处理复杂的业务规则,并根据查询结果做出相应的推理和决策,从而进一步提升风控和其他业务分析的智能化水平。同时,Graph 与交互系统的深度集成将由开发者工具 SDK 提供全面支持,确保开发者可以在平台上高效构建自己的应用。
04
问答环节
Q1**:前端集成 LLM 和 Agent 功能**
是否考虑将 LLM 或 Agent 功能集成到前端界面,如 explorer 工具中,以便提升用户体验。
A1:目前有可能实现这种集成,尤其是在 explorer 工具中,作为前端的一个载体,便于展示和使用 LLM 及 Agent 功能。
Q2**:GraphRAG 的成本和效益**
GraphRAG 如何解决成本问题,特别是在与传统向量嵌入(Vector Embedding)方法的比较下,是否更具优势。
A2:GraphRAG 并不完全取代传统向量嵌入,而是作为一种增强手段,特别是在结构化查询能力和全局性问题的解决上有独特优势。通过构建知识图谱和社区报告(community report),GraphRAG 能够有效处理复杂的关系和全局性问题,其构建过程可能较为昂贵,但查询成本相对较低。此外,可以通过延迟构建和选择较小的模型来优化成本,平衡效果和性能。
Q3**:构建社区报告的成本优化**
构建多个社区报告时,如何避免频繁的 API 调用和数据更新带来的高成本。
A3:为了减少成本,可以采用“懒加载”策略,在真正需要时才生成社区报告。此外,对于数据更新所需的整个图重建问题,可以通过量化数据失效的程度来降低重建频率。例如,当图中的数据失效程度低于一定阈值时,可以容忍其不重建,降低系统负担。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)