大模型微调是否具有技术含量？或者说其技术含量究竟有多少？

有句老生常谈的话：一项工作是否具有技术含量取决于你怎么做，这在大模型（LLM）方向上尤其如此，因为与传统自然语言处理（NLP）相比，它的上手门槛变得更低了。我来举些例子，就大模型微调的几个重要环节而言，我所列举的每一种做法基本上都能实现最终目标，甚至训练出的模型效果也相差无几。然而，它们对个人能力成长的助益却大不相同。

AI大模型训练家

1243人浏览 · 2024-09-19 10:51:31

AI大模型训练家 · 2024-09-19 10:51:31 发布

有句老生常谈的话：一项工作是否具有技术含量取决于你怎么做，这在大模型（LLM）方向上尤其如此，因为与传统自然语言处理（NLP）相比，它的上手门槛变得更低了。

我来举些例子，就大模型微调的几个重要环节而言，我所列举的每一种做法基本上都能实现最终目标，甚至训练出的模型效果也相差无几。然而，它们对个人能力成长的助益却大不相同。

数据工作方面

做法 1：直接沿用实验室或同事的训练数据，在获取后不检查数据质量就直接用于训练。
做法 2：下载一份开源数据，构建“系统 + 查询 + 答案”的集合。
做法 3：利用 GPT - 4 生成数据，学会使用 GPT - 4 偏好的提示语（prompt）来提出请求。并且要认识到数据提示语（prompt）的多样性，想尽各种办法去扩充提示语（prompt）在任务和表达方式上的多样性，甚至特意添加一些带噪声的提示语（noisy prompt）以提高抗噪性。同时，愿意放低姿态，逐一检查数据质量，并与标注人员统一标注标准。
做法 4：利用用户的交互日志来推动数据构建过程，收集用户的真实提示语（prompt），通过规则或者 GPT - 4 分析用户的反馈（feedback），进而获取高质量的答案数据。
做法 5：借鉴思维链（CoT）、检索增强生成（RAG）、函数调用（function_call）、智能体（agent）等思路，将复杂的、模型无法胜任的任务在数据层面进行拆解，例如，将“模型写不出长篇小说”拆分为“模型写小说大纲，模型基于小说大纲写长篇小说”等。

训练代码方面

做法 1：直接继承实验室或同事的训练代码，修改数据路径（data_path）后就运行训练脚本（bash train.sh）。
做法 2：继承或者自行下载一份训练代码，研究启动代码中的每一个参数，去思考并弄明白：为什么要开启卸载（offload），什么是序列并行（sequence_parallel）等。然后再去查看数据加载器（dataloader）是如何处理数据格式的，会话（session）数据的损失（loss）是只计算最后一轮还是每一轮都计算，代码中应用了哪些特殊标记（special_token）等。
做法 3：不仅要理解每个参数，还要提出自己的见解：例如，轮数（epoch）等于 3 是否过多，10 万条训练数据这个量级是否合适？特殊标记（special_token）是否引入过多？对于 7B 模型来说这个学习率是否过大，预热（warmup）应该使用多少步或者是否可以不进行预热？带着这些疑问去请教 ChatGPT 或者搜索并阅读行业大佬们的文章。
做法 4：对训练代码提出质疑并进行改进，思考 DeepSpeed 是否有点慢，是否要改为 Megatron 框架？是否可以将 Megatron 和 DeepSpeed 的优点相结合？如果有兴趣，还可以调试运行速度，当发现旋转位置编码（ROPE）的耗时比注意力（attention）机制还长时，想办法进行优化（查询大佬们的优化方案）。

大模型资源分享

针对所有自学遇到困难的同学，我为大家系统梳理了大模型学习的脉络，并且分享这份LLM大模型资料：其中包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。😝有需要的小伙伴，可以扫描下方二维码免费领取↓↓↓

在这里插入图片描述

一、全套 AGI 大模型学习路线

AI 大模型时代的精彩学习之旅：从根基铸就到前沿探索，牢牢掌握人工智能核心技能！

在这里插入图片描述

二、640 套 AI 大模型报告合集

此套涵盖 640 份报告的精彩合集，全面涉及 AI 大模型的理论研究、技术实现以及行业应用等诸多方面。无论你是科研工作者、工程师，还是对 AI 大模型满怀热忱的爱好者，这套报告合集都将为你呈上宝贵的信息与深刻的启示。

在这里插入图片描述

三、AI 大模型经典 PDF 书籍

伴随人工智能技术的迅猛发展，AI 大模型已然成为当今科技领域的一大热点。这些大型预训练模型，诸如 GPT-3、BERT、XLNet 等，凭借其强大的语言理解与生成能力，正在重塑我们对人工智能的认知。而以下这些 PDF 书籍无疑是极为出色的学习资源。
在这里插入图片描述

阶段 1：AI 大模型时代的基础认知

目标：深入洞悉 AI 大模型的基本概念、发展历程以及核心原理。
内容

：
- L1.1 人工智能概述与大模型起源探寻。
- L1.2 大模型与通用人工智能的紧密关联。
- L1.3 GPT 模型的辉煌发展历程。
- L1.4 模型工程解析。
- L1.4.1 知识大模型阐释。
- L1.4.2 生产大模型剖析。
- L1.4.3 模型工程方法论阐述。
- L1.4.4 模型工程实践展示。
- L1.5 GPT 应用案例分享。

阶段 2：AI 大模型 API 应用开发工程

目标：熟练掌握 AI 大模型 API 的运用与开发，以及相关编程技能。
内容
：
- L2.1 API 接口详解。
- L2.1.1 OpenAI API 接口解读。
- L2.1.2 Python 接口接入指南。
- L2.1.3 BOT 工具类框架介绍。
- L2.1.4 代码示例呈现。
- L2.2 Prompt 框架阐释。
- L2.2.1 何为 Prompt。
- L2.2.2 Prompt 框架应用现状分析。
- L2.2.3 基于 GPTAS 的 Prompt 框架剖析。
- L2.2.4 Prompt 框架与 Thought 的关联探讨。
- L2.2.5 Prompt 框架与提示词的深入解读。
- L2.3 流水线工程阐述。
- L2.3.1 流水线工程的概念解析。
- L2.3.2 流水线工程的优势展现。
- L2.3.3 流水线工程的应用场景探索。
- L2.4 总结与展望。

阶段 3：AI 大模型应用架构实践

目标：深刻理解 AI 大模型的应用架构，并能够实现私有化部署。
内容
：
- L3.1 Agent 模型框架解读。
- L3.1.1 Agent 模型框架的设计理念阐述。
- L3.1.2 Agent 模型框架的核心组件剖析。
- L3.1.3 Agent 模型框架的实现细节展示。
- L3.2 MetaGPT 详解。
- L3.2.1 MetaGPT 的基本概念阐释。
- L3.2.2 MetaGPT 的工作原理剖析。
- L3.2.3 MetaGPT 的应用场景探讨。
- L3.3 ChatGLM 解析。
- L3.3.1 ChatGLM 的特色呈现。
- L3.3.2 ChatGLM 的开发环境介绍。
- L3.3.3 ChatGLM 的使用示例展示。
- L3.4 LLAMA 阐释。
- L3.4.1 LLAMA 的特点剖析。
- L3.4.2 LLAMA 的开发环境说明。
- L3.4.3 LLAMA 的使用示例呈现。
- L3.5 其他大模型介绍。