从30%到90%：RAG技术实战指南，打造高准确率LLM知识库问答系统

本文分享了企业知识库智能问答系统的RAG技术实践历程，通过系统化优化方法将准确率从初期的30%提升到90%。文章介绍了如何优化召回策略（Vector Search+Rerank）、选择生成模型（Qwen2.5-7B）以及产品设计策略，构建了无需复杂模型精调的高准确性RAG系统。强调了系统化评测方法、性能与成本平衡、产品设计优化对LLM应用落地的重要性。

编程喵酱

1069人浏览 · 2025-09-19 17:38:11

编程喵酱 · 2025-09-19 17:38:11 发布

引言：RAG - LLM 应用落地的关键技术

在 LLM 浪潮爆发之后，RAG (检索增强生成) 技术因其清晰的技术路径和相对可控的实施成本，成为企业快速落地 AI 应用的重要突破口。本文将分享我们在构建企业知识库智能问答系统过程中的实践历程：如何通过系统化的优化方法，将准确率从初期的 30% 提升到 90% 的实用水平。

这不仅是一个追踪 RAG 技术演进的历程，更是一个将 LLM 技术落地为实用产品的实践案例。本文将介绍如何通过优化召回策略、选择生成模型、设计产品策略，构建一个准确性高、成本可控的 RAG 知识库问答系统，无需复杂的模型精调工作。

RAG流程示意图

初期探索：从简单实现到系统思考

V1 版本：基础 RAG 实践

在 2023 年下半年，我们完成了第一版基于 RAG 的知识库问答系统的上线。这个版本采用了相对简单且主流的技术方案：

文档预处理：采用基于三级标题的分割策略，将文档切分为 500～1000 tokens 的片段，并保留 Markdown 格式的富文本内容
向量化处理：使用当时表现较好的 bge-large-zh-v1.5 模型进行文本向量化
检索策略：结合向量搜索和基于 Elastic Search 的关键词混合检索方案，通过 RRF（Reciprocal Rank Fusion）算法融合排序
问答生成：选用 ChatGLM3-6B 作为基础模型，提供问题总结服务

然而，这个版本在实际运营中的表现并不理想。系统性评测结果显示，真实用户提问的回答正确率仅有约 30%。而更令人沮丧的是，在相当长的一段时间内，我们难以找到明确的优化方案。

RAG 技术远比想象中更难以提升效果。

大模型业界发展：新模型带来的转机

2023 年底至 2024 年初，大模型业界依然在狂飙突进。几个关键的技术进展为我们带来了新的思路：

更强大的基础模型：阿里巴巴 Qwen 系列模型的快速迭代（从 qwen1.5到 qwen2），在中文理解、指令遵循等方面都展现出显著优势，尤其是其 32k 的上下文支持能力
更优秀的向量模型：北京智源研究院发布的 reranker 重排序模型和bge-m3 embedding 模型，为检索优化提供了新的可能性
技术思路的突破：twitter 社区上出现关于 Long Context 与 RAG 技术优劣的大讨论，启发我们重新思考系统架构

2024年初 X 上 Long Context replace RAG的讨论

通过初步测试，我们发现更长的上下文长度支持下（32k），能成倍的增加召回文档的数目，从而显著的提升问答的准确性。然而，这种提升伴随着明显的成本增长：响应时间的增加，以及 GPU 显存消耗增加。

这时就需要评估，如何平衡问答准确性与计算成本和延时？

方法论：构建系统化的评测方案

为了找到这个平衡点，我们设计了一套系统化的评测方案：

1. RAG 流程的漏斗模型

我们将 RAG 流程解构为两个关键阶段：

召回阶段：从知识库中检索相关文档
生成阶段：基于检索结果生成答案

这种分解让我们能够分别优化和评估各个环节的性能，更精确地定位瓶颈所在。

RAG流程的漏斗模型

2. 标准化评测集

我们建立了包含200个标准问题的评测集，每个问题都包括了：

相关文档链接
标准参考答案

这个评测集覆盖了不同类型和难度的问题，能够较好地模拟真实场景下的用户提问。评测的目的是评估不同 RAG 策略的相对优劣，并不等于线上真实运营的结果。

3. 量化的优化策略

基于这个评测体系，我们展开了系统性的优化工作：

召回阶段

召回阶段的目标是选择最优的文档召回策略。通过深入分析不同策略组合的特点，我们得到这些结论：

Vector Search：速度快，适合作为粗排阶段，快速召回 Top K (20/50/100) 的文档
**Rerank：**准确率高，但耗时较大，适合作为精排阶段，对粗排结果进一步提升正确文档的排名。实验表明，对于相同的 N 值，Rerank 比 Vector Search 的准确率普遍提升约 10%
Recall@N：N 值越大，召回文档越多，准确率越高，但同时也增加了输送给 LLM 的 Context Length，对模型的要求也更高

向量搜索、Rerank及TopN的评测实验

召回阶段的优化策略

Vector Search 作为粗排，召回 Top 100 的文档
Rerank 作为精排，从中选取 Top 15 的最相关文档
最终实现了约 85% 的 Recall@15 准确率

生成阶段

模型生成阶段的目标是选择性能和性价比俱佳的模型。经过多次实验和对比，我们发现 Qwen2.5-7B 模型在 10k Context Length 下，依然能保持 90% 左右的正确率，且明显优于之前使用的 ChatGLM3-6B。虽然 Qwen2.5-72B 参数更大，准确率方面有略微提升，但其对显存要求极高，并不具备经济性。

生成阶段的优化策略

选定 Qwen2.5-7B 作为生成模型
将上下文长度限制在 10k tokens，在保证性能的同时控制资源消耗
最终模型达到了约 90% 的生成准确率

产品化思考：技术之上的产品优化

我们逐渐意识到，仅依靠模型技术的优化是不够的。要建设一个真正好用的知识库问答系统，需要从产品和用户体验的角度进行全方位提升：

1. 文档体系建设

大模型素有 “garbage in, garbage out” 的说法。这强调了文档质量的重要性。不但要写好文档，更需要 “面向LLM” 写文档。因此在文档建设方面：

补充高频文档：针对性补充常见问题的标准答案，效果立竿见影
面向 LLM 写文档：确保文档背景知识完整、语义清晰、对模型友好

2. 用户交互优化

我们观察到用户在不同场景下的提问有差异性，并且用户可能无法准确描述问题。因此在产品设计方面：

设计场景化的问题推荐，引导用户更准确地表达问题
提供答案反馈机制，持续收集用户反馈进行优化

成果与思考

通过上述系统性优化，我们最终实现了：

召回阶段：正确文档召回率达到 95%
生成阶段：生成答案准确率达到 90%

这个结果意味着可以投入生产运营中，我们的系统已经为大多数用户提供切实有效的帮助。

整个优化过程也让我们获得了一些重要经验：

1. 系统化方法的重要性：通过建立标准评测体系和量化指标，我们能够更客观地评估不同优化策略的效果

2. 平衡性能与成本：不必一味追求最大参数的 LLM，优秀的 7B 级别的小模型已经足以解决好 RAG 场景

3. 产品设计的必要性：技术优化需要与产品设计优化相结合，才能扬长避短的落地 LLM 应用

随着大模型的持续火爆，各行各业纷纷开始探索和搭建属于自己的私有化大模型，这无疑将催生大量对大模型人才的需求，也带来了前所未有的就业机遇。**正如雷军所说：“站在风口，猪都能飞起来。”**如今，大模型正成为科技领域的核心风口，是一个极具潜力的发展机会。能否抓住这个风口，将决定你是否能在未来竞争中占据先机。

那么，我们该如何学习AI大模型呢？

得益于新岗位相较于被取代岗位更高的生产效率，全社会的整体生产效率实际上是不断提升的。

然而对每个个体而言，更准确的说法是：

“率先掌握AI技术的人，将比后来者更具竞争优势”。

这个道理，在计算机、互联网乃至移动互联网兴起的每一个时代初期，都同样适用。

作为一名在互联网一线企业拥有十多年工作经验的老兵，我指导过许多同行和后辈，也帮助了不少人实现能力提升和职业成长。

在这个过程中，我积累了许多值得分享的经验和知识，也希望能用自己的专业能力，为正在学习人工智能的你答疑解惑。尽管日常工作已经非常繁忙，我仍然坚持整理和输出这些内容。但由于信息传播渠道有限，许多互联网人难以获取系统、可靠的学习资料来实现自我提升。因此，我决定免费分享一批重要的AI大模型资料，包括：AI大模型入门学习思维导图、精选学习书籍与手册、配套视频教程，以及部分实战学习录播视频。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

请添加图片描述

大模型入门到实战全套学习大礼包📚

大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

请添加图片描述

AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

在这里插入图片描述

一、初阶应用：建立AI基础认知

在第一阶段（10天），重点是对大模型 AI 的基本概念和功能进行深入了解。这将帮助您在相关讨论中发表高级、独特的见解，而不仅仅是跟随他人。您将学习如何调教 AI，以及如何将大模型与业务相结合。

主要学习内容：

大模型AI的功能与应用场景：探索AI在各个领域的实际应用
AI智能的起源与进化：深入了解AI如何获得并提升其智能水平
AI的核心原理与心法：掌握AI技术的核心概念和关键原理
大模型应用的业务与技术架构：学习如何将大模型AI应用于业务场景和技术架构中
代码实践：向GPT-3.5注入新知识的示例代码
提示工程的重要性与核心思想：理解提示工程在AI应用中的关键作用
Prompt的构建与指令调优方法：学习如何构建有效的Prompt和进行指令调优
思维链与思维树的应用：掌握思维链和思维树在AI推理和决策中的作用
Prompt攻击与防范策略：了解Prompt攻击的类型和如何进行有效的防范

、、、

二、中阶应用：深入AI实战开发

在第二阶段（30天），您将进入大模型 AI 的进阶实战学习。这将帮助您构建私有知识库，扩展 AI 的能力，并快速开发基于 agent 的对话机器人。适合 Python 和 JavaScript 程序员。

主要学习内容：

RAG的重要性：理解RAG在AI应用中的关键作用
构建基础ChatPDF：动手搭建一个简单的ChatPDF应用
检索基础：掌握信息检索的基本概念和原理
理解向量表示：深入探讨Embeddings的原理和应用
向量数据库与检索技术：学习如何使用向量数据库进行高效检索
基于 vector 的 RAG 实现：掌握基于向量的RAG构建方法
RAG系统的高级扩展：探索RAG系统的进阶知识和技巧
混合检索与RAG-Fusion：了解混合检索和RAG-Fusion的概念和应用
向量模型的本地部署策略：学习如何在本地环境中部署向量模型

三、高阶应用：模型训练

在这个阶段，你将掌握模型训练的核心技术，能够独立训练和优化大模型AI。你将了解模型训练的基本概念、技术和方法，并能够进行实际操作。

模型训练的意义：理解为什么需要进行模型训练。
模型训练的基本概念：学习模型训练的基本术语和概念。
求解器与损失函数：了解求解器和损失函数在模型训练中的作用。
神经网络训练实践：通过实验学习如何手写一个简单的神经网络并进行训练。
训练与微调：掌握训练、预训练、微调和轻量化微调的概念和应用。
Transformer结构：了解Transformer的结构和原理。
轻量化微调：学习如何进行轻量化微调以优化模型性能。
实验数据集构建：掌握如何构建和准备实验数据集。

四、专家应用：AI商业应用与创业

在这个阶段，你将了解全球大模型的性能、吞吐量和成本等方面的知识，能够在云端和本地等多种环境下部署大模型。你将找到适合自己的项目或创业方向，成为一名被AI武装的产品经理。

硬件选型：学习如何选择合适的硬件来部署和运行大模型AI。
全球大模型概览：了解全球大模型的发展趋势和主要玩家。
国产大模型服务：探索国产大模型服务的优势和特点。
OpenAI代理搭建：学习如何搭建OpenAI代理以扩展AI的功能和应用范围。
热身练习：在阿里云 PAI 上部署 Stable Diffusion
本地化部署：在个人计算机上运行大型模型
私有化部署策略：大型模型的内部部署方法
利用 vLLM 进行模型部署：高效部署大型模型的技术
案例分析：如何在阿里云上优雅地私有部署开源大型模型
开源 LLM 项目的全面部署：从零开始部署开源大型语言模型
内容安全与合规：确保AI应用的内容安全和合规性
算法备案流程：互联网信息服务算法的备案指南

通过这些学习内容，您不仅能够掌握大模型 AI 的基本技能，还能够深入理解其高级应用，从而在市场竞争中占据优势。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你无疑是AI领域的佼佼者。然而，即使你只能完成60-70%的内容，你也已经展现出了成为一名大模型AI大师的潜力。

最后，本文提供的完整版大模型 AI 学习资料已上传至 CSDN，您可以通过微信扫描下方的 CSDN 官方认证二维码免费领取【保证100%免费】。在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存