有句老生常谈的话:一项工作是否具有技术含量取决于你怎么做,这在大模型(LLM)方向上尤其如此,因为与传统自然语言处理(NLP)相比,它的上手门槛变得更低了。

我来举些例子,就大模型微调的几个重要环节而言,我所列举的每一种做法基本上都能实现最终目标,甚至训练出的模型效果也相差无几。然而,它们对个人能力成长的助益却大不相同。

数据工作方面

  • 做法 1:直接沿用实验室或同事的训练数据,在获取后不检查数据质量就直接用于训练。
  • 做法 2:下载一份开源数据,构建“系统 + 查询 + 答案”的集合。
  • 做法 3:利用 GPT - 4 生成数据,学会使用 GPT - 4 偏好的提示语(prompt)来提出请求。并且要认识到数据提示语(prompt)的多样性,想尽各种办法去扩充提示语(prompt)在任务和表达方式上的多样性,甚至特意添加一些带噪声的提示语(noisy prompt)以提高抗噪性。同时,愿意放低姿态,逐一检查数据质量,并与标注人员统一标注标准。
  • 做法 4:利用用户的交互日志来推动数据构建过程,收集用户的真实提示语(prompt),通过规则或者 GPT - 4 分析用户的反馈(feedback),进而获取高质量的答案数据。
  • 做法 5:借鉴思维链(CoT)、检索增强生成(RAG)、函数调用(function_call)、智能体(agent)等思路,将复杂的、模型无法胜任的任务在数据层面进行拆解,例如,将“模型写不出长篇小说”拆分为“模型写小说大纲,模型基于小说大纲写长篇小说”等。

训练代码方面

  • 做法 1:直接继承实验室或同事的训练代码,修改数据路径(data_path)后就运行训练脚本(bash train.sh)。
  • 做法 2:继承或者自行下载一份训练代码,研究启动代码中的每一个参数,去思考并弄明白:为什么要开启卸载(offload),什么是序列并行(sequence_parallel)等。然后再去查看数据加载器(dataloader)是如何处理数据格式的,会话(session)数据的损失(loss)是只计算最后一轮还是每一轮都计算,代码中应用了哪些特殊标记(special_token)等。
  • 做法 3:不仅要理解每个参数,还要提出自己的见解:例如,轮数(epoch)等于 3 是否过多,10 万条训练数据这个量级是否合适?特殊标记(special_token)是否引入过多?对于 7B 模型来说这个学习率是否过大,预热(warmup)应该使用多少步或者是否可以不进行预热?带着这些疑问去请教 ChatGPT 或者搜索并阅读行业大佬们的文章。
  • 做法 4:对训练代码提出质疑并进行改进,思考 DeepSpeed 是否有点慢,是否要改为 Megatron 框架?是否可以将 Megatron 和 DeepSpeed 的优点相结合?如果有兴趣,还可以调试运行速度,当发现旋转位置编码(ROPE)的耗时比注意力(attention)机制还长时,想办法进行优化(查询大佬们的优化方案)。

大模型资源分享

针对所有自学遇到困难的同学,我为大家系统梳理了大模型学习的脉络,并且分享这份LLM大模型资料:其中包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。😝有需要的小伙伴,可以扫描下方二维码免费领取↓↓↓

在这里插入图片描述

一、全套 AGI 大模型学习路线

AI 大模型时代的精彩学习之旅:从根基铸就到前沿探索,牢牢掌握人工智能核心技能!

在这里插入图片描述

二、640 套 AI 大模型报告合集

此套涵盖 640 份报告的精彩合集,全面涉及 AI 大模型的理论研究、技术实现以及行业应用等诸多方面。无论你是科研工作者、工程师,还是对 AI 大模型满怀热忱的爱好者,这套报告合集都将为你呈上宝贵的信息与深刻的启示。

在这里插入图片描述

三、AI 大模型经典 PDF 书籍

伴随人工智能技术的迅猛发展,AI 大模型已然成为当今科技领域的一大热点。这些大型预训练模型,诸如 GPT-3、BERT、XLNet 等,凭借其强大的语言理解与生成能力,正在重塑我们对人工智能的认知。而以下这些 PDF 书籍无疑是极为出色的学习资源。
在这里插入图片描述
在这里插入图片描述

阶段 1:AI 大模型时代的基础认知

  • 目标:深入洞悉 AI 大模型的基本概念、发展历程以及核心原理。

  • 内容

    • L1.1 人工智能概述与大模型起源探寻。
    • L1.2 大模型与通用人工智能的紧密关联。
    • L1.3 GPT 模型的辉煌发展历程。
    • L1.4 模型工程解析。
    • L1.4.1 知识大模型阐释。
    • L1.4.2 生产大模型剖析。
    • L1.4.3 模型工程方法论阐述。
    • L1.4.4 模型工程实践展示。
    • L1.5 GPT 应用案例分享。

阶段 2:AI 大模型 API 应用开发工程

  • 目标:熟练掌握 AI 大模型 API 的运用与开发,以及相关编程技能。

  • 内容

    • L2.1 API 接口详解。
    • L2.1.1 OpenAI API 接口解读。
    • L2.1.2 Python 接口接入指南。
    • L2.1.3 BOT 工具类框架介绍。
    • L2.1.4 代码示例呈现。
    • L2.2 Prompt 框架阐释。
    • L2.2.1 何为 Prompt。
    • L2.2.2 Prompt 框架应用现状分析。
    • L2.2.3 基于 GPTAS 的 Prompt 框架剖析。
    • L2.2.4 Prompt 框架与 Thought 的关联探讨。
    • L2.2.5 Prompt 框架与提示词的深入解读。
    • L2.3 流水线工程阐述。
    • L2.3.1 流水线工程的概念解析。
    • L2.3.2 流水线工程的优势展现。
    • L2.3.3 流水线工程的应用场景探索。
    • L2.4 总结与展望。

阶段 3:AI 大模型应用架构实践

  • 目标:深刻理解 AI 大模型的应用架构,并能够实现私有化部署。

  • 内容

    • L3.1 Agent 模型框架解读。
    • L3.1.1 Agent 模型框架的设计理念阐述。
    • L3.1.2 Agent 模型框架的核心组件剖析。
    • L3.1.3 Agent 模型框架的实现细节展示。
    • L3.2 MetaGPT 详解。
    • L3.2.1 MetaGPT 的基本概念阐释。
    • L3.2.2 MetaGPT 的工作原理剖析。
    • L3.2.3 MetaGPT 的应用场景探讨。
    • L3.3 ChatGLM 解析。
    • L3.3.1 ChatGLM 的特色呈现。
    • L3.3.2 ChatGLM 的开发环境介绍。
    • L3.3.3 ChatGLM 的使用示例展示。
    • L3.4 LLAMA 阐释。
    • L3.4.1 LLAMA 的特点剖析。
    • L3.4.2 LLAMA 的开发环境说明。
    • L3.4.3 LLAMA 的使用示例呈现。
    • L3.5 其他大模型介绍。

阶段 4:AI 大模型私有化部署

  • 目标:熟练掌握多种 AI 大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述。
    • L4.2 模型私有化部署的关键技术解析。
    • L4.3 模型私有化部署的实施步骤详解。
    • L4.4 模型私有化部署的应用场景探讨。

学习计划:

  • 阶段 1:历时 1 至 2 个月,构建起 AI 大模型的基础知识体系。
  • 阶段 2:花费 2 至 3 个月,专注于提升 API 应用开发能力。
  • 阶段 3:用 3 至 4 个月,深入实践 AI 大模型的应用架构与私有化部署。
  • 阶段 4:历经 4 至 5 个月,专注于高级模型的应用与部署。
    在这里插入图片描述
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐