大模型微调——Adapter Tuning

IT猫仔

1156人浏览 · 2024-10-22 14:03:30

IT猫仔 · 2024-10-22 14:03:30 发布

什么是大模型微调

大模型的微调是指在一个已经预训练好的大型深度学习模型基础上，通过使用特定任务的数据集进行额外的训练，以使模型更好地适应该任务。通常情况下，大模型（如BERT、GPT等）会在大规模的“通用数据”上进行预训练，微调的目的是在这个预训练的基础上，通过使用与目标任务相关的小规模数据集，调整模型参数，使其更好地完成特定任务。馆长经常会把大模型训练类比到雅思考试，模型预训练的阶段就像是前期看看美剧、看看英文书籍等，先学习“语言”本身，学到了一定程度的语言理解后；在有针对的学习雅思考试相关内容，做一些雅思阅读理解、口语等，这就像是微调；最后做成套的雅思模拟题，看看能考多少分，就像是在微调完成后，通过使用验证集评估模型在目标任务上的性能。

Adapter Tuning

Adapter Tuning最早是谷歌的研究员在2019年名为《Parameter-Efficient Transfer Learning for NLP》对论文提出的一种针对BERT模型的微调方式。在针对特定的下游任务进行训练时，如果对BERT模型的全部参数进行调整，需要花费大量的时间和算力，过于低效；但如果只更新BERT最后几层的参数，效果又不是很好。基于以上问题，提出了Adapter的结构，把它放到预训练好的BERT模型里，在微调过程中冻结BERT主体的模型参数，只更新Adapter的参数。

下图的左边是将Adapter放到Transformer的每一层或者其中几层里，除了新增的Adapter，其他都是Transformer原来的结构，这里就不过多赘述了（不熟悉Transformer架构的同学可以去看图书馆之前的文章），主要聊聊右边的Adapter的结构。Adapter由两个前馈层（Feedforward Layer）组成，第一个down-project将Transformer的输出作为输入，由原来的维度D映射到d，d远远小于D，通过设定d的大小来控制Adapter的参数量，实现降维的作用。然后通过一个非线性层（Nonlinearity）进行非线性变换，可以理解为通过非线性关系更好的拟合复杂的数据，这是常规操作就不多说了。最后进入第二个前馈层（Feedforward Layer），将低维度d重新映射到高维度D，实现up-project。

论文中提到，这种微调的方法只增加了3.6%的模型参数规模，并取得和参数全部更新（full-tuning）接近的效果。

大模型的微调技术有很多，比如Adapter Tuning、Prefix Tuning以及Prompt Tuning等，今天先简单回顾一下Adapter Tuning，后面会对其他微调技术逐一进行介绍。内容纯属个人理解，写的不恰当的地方大家随时讨论，姑妄言之，姑妄听之。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模