LLM应用喂饭教程：使用 Easy Dataset 制作问答数据集

bgeyq878

1009人浏览 · 2025-07-01 09:00:00

bgeyq878 · 2025-07-01 09:00:00 发布

在当今人工智能快速发展的时代，大型语言模型（LLM）的应用越来越广泛。为了使这些模型更好地适应特定领域和任务，微调成为了一种重要的方法。而高质量的问答数据集是微调模型的关键。Easy Dataset 是一款强大的工具，能够帮助用户高效地创建用于微调 LLM 的问答数据集。以下是使用 Easy Dataset 制作问答数据集的具体步骤。

一、工具简介

Easy Dataset 是一款专为创建 LLM 微调数据集而设计的应用程序。它提供了直观的界面，支持多种文档格式（如 PDF、Markdown、DOCX 等）的智能识别与处理，能够智能分割文本、生成问题，并利用 LLM API 生成答案。该工具支持多种导出格式，兼容所有遵循 OpenAI 格式的 LLM API，适用于技术与非技术用户。

二、安装与部署

（一）前提条件

确保本地开发环境已安装 Node.js 和 npm（Node Package Manager），以满足 Easy Dataset 的运行需求。此外，Docker 用户需提前安装好 Docker 环境。

（二）安装步骤

1. 通过 NPM 安装：

克隆 Easy Dataset 仓库到本地：`git clone https://github.com/ConardLi/easy-dataset.git`，进入项目目录 `cd easy-dataset`。

安装项目依赖：运行 `npm install` 命令，该命令会根据项目配置自动下载所需的依赖包，包括各种前端组件库、后端服务框架等，为项目运行提供基础支持。

启动开发服务器：依次执行 `npm run build`（构建项目，将源代码编译成可执行的文件）和 `npm run start`（启动服务器），在开发模式下运行 Easy Dataset 应用程序。在浏览器中访问 `http://localhost:1717`，即可进入 Easy Dataset 的界面，开始使用。

2. 使用 Docker 部署：

克隆仓库后，利用项目根目录下的 Dockerfile 构建 Docker 镜像：`docker build -t easy-dataset .`。

运行 Docker 容器：`docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset`，其中需将 `{YOUR_LOCAL_DB_PATH}` 替换为实际用于存储本地数据库的路径。这样可以将容器内的数据库数据挂载到本地目录，便于数据的持久化存储和管理。同样通过浏览器访问 `http://localhost:1717` 使用应用程序。

三、制作问答数据集的步骤

（一）创建项目

1. 登录 Easy Dataset 后，点击首页的 “创建项目” 按钮。

2. 输入项目名称和详细描述，帮助自己和其他团队成员清晰了解该项目的目的和范围，例如 “医疗领域问答数据集 - 用于微调医疗咨询模型”。

3. 配置 LLM API 设置，选择合适的模型（如 OpenAI 的 GPT 系列、DeepSeek 等）并填写相应的 API 密钥等参数，以便后续利用 LLM 进行答案生成等操作。

（二）处理文献

1. 在 “文本分割” 部分上传需要处理的文件，支持多种常见格式。比如上传一份医学研究论文的 PDF 文件，或者包含行业知识的 Markdown 文档。

2. 查看系统自动分割后的文本片段，可根据实际需求对分割结果进行调整，如合并或拆分某些段落，以确保每个文本块语义完整且长度适中，便于后续问题生成。

3. 查看并调整全局领域树，该领域树是基于上传文档内容自动生成的，用于对数据集进行领域分类和组织，如将医学文献划分为 “基础医学”“临床医学”“公共卫生” 等子领域，可手动修正以提高分类准确性。

（三）生成问题

1. 基于处理好的文本块，批量构建问题。Easy Dataset 会根据文本内容的语义信息，运用内置的智能算法生成一系列相关问题，如针对医学文本生成 “该病症的主要症状有哪些？”“如何进行有效诊断？” 等问题。

2. 查看并编辑生成的问题，剔除不符合要求或质量较低的问题，也可手动添加新的问题，完善问题列表。

3. 利用标签树对问题进行组织，将不同类型的问题归类到相应的领域标签下，方便后续管理和使用，如把 “药物副作用” 相关问题归入 “药物学” 标签下的 “副作用” 子标签。

（四）创建数据集

1. 依据编辑完善后的问题，批量构建数据集。系统会调用之前配置的 LLM API，将每个问题发送给模型，由模型生成对应的答案。

2. 查看生成的答案，对答案进行编辑和优化，确保答案准确、完整且逻辑清晰，符合实际应用场景的需求，如对医学答案中的专业术语进行补充解释，使其更易于非专业用户理解。

3. 还可进一步对数据集进行整体优化，如调整问题和答案的顺序，使其更符合某种逻辑结构或优先级。

（五）导出数据集

1. 在数据集页面点击 “导出” 按钮。

2. 选择导出的格式，如 Alpaca 或 ShareGPT 等常见格式，这些格式在不同的 LLM 平台或项目中有广泛应用，方便数据集的共享和使用。

3. 根据需求选择文件类型，如 JSON 或 JSONL，JSON 格式具有良好的可读性和易解析性，JSONL 则便于大规模数据的逐行处理。

4. 如有需要，添加自定义系统提示，用于引导模型更好地理解和使用该数据集，然后执行导出操作，即可得到完整的问答数据集文件，可用于模型微调等后续任务。

四、总结与展望

Easy Dataset 通过其强大的功能和直观的界面，极大地简化了问答数据集的制作流程，有效提高了数据集的质量和生产效率。无论是学术研究机构用于提升模型在特定学科领域的表现，还是企业为了优化内部知识库问答系统，亦或是开发者个人探索 LLM 的各种应用场景，它都提供了有力的支持。随着人工智能技术的不断发展，Easy Dataset 有望持续优化升级，集成更多先进的算法和模型，拓展更多的功能，如支持更多语言的问答数据集制作、提供更精细的数据评估指标等，为推动 LLM 在各个领域的深度应用和创新发展发挥更重要的作用。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模