作者:spring

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

bb4d86f048a74bba74847d508154cff1.png

1. 大语言模型的细节

1.0 transformer 与 LLM
032a042c5ed1b8e5cd09e9332a2956dc.png
1.1 模型结构
d284aad61d9d62151767c4ab3efe7c22.png
1.2 训练目标
ec7f04efadf294ff4eeb674f036731a3.png
1.3 tokenizer
87521d7e9c27a9c4c8a98777cb7d0d00.png
1.4 位置编码
7963263396cfe3eb36f782ce49658af5.png
1.5 层归一化
ea707ef3f33b9125ad98d2f39757520e.png
1.6 激活函数
9b6fdc0c3265765e18451156f3fa3205.png
1.7 Multi-query Attention 与 Grouped-query Attention
778e2968625aa6816d72a1d4a9802953.png
1.8 并行 transformer block
56d42f1df44f96e1675e311e6c625c13.png
1.9 总结-训练稳定性
261ede8e555e59033764cde8d3117064.png

2. LLM 的分布式预训练

5fa7a5eb22906d43601edb721d4d3cfa.png
2.0 点对点通信与集体通信
c791101b332bad8919bcbefe15fda8f1.png
2.1 数据并行
55d8e433acdb66b2f36202510a37e54e.png
2.2 张量并行
f140ca1087c6295a80dc222ad11163e0.png39acd5480fa6fe7bf66d40e5f87bfed9.png

2.3 流水线并行

b0cdc938de938dfa27fccb1c02a1721c.png
2.4 3D 并行
f3af2391f1f31f40c687aed121633e85.png
2.5 混合精度训练
6a60c6b6851ddfae7e108d28b4bfd304.png
2.6 激活重计算
09b56f29e91116fc756ce4b4dfcda046.png
2.7 ZeRO,零冗余优化器
9b4c2b3d9916f5e9920f3edc89f09601.png
2.8 CPU-offload,ZeRO-offload
c60502266dc553077f4bdc8f727a0a2f.png
2.9 Flash Attention
130f62db0c6ebae41b8d5035a1617f66.png
2.10 vLLM: Paged Attention
c41f0e30ee21054881f8b99ad004ae39.png

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?
72246fe9fce8f1d900bab92d134fcb68.png
3.1 prompt tuning
8d13bdbc82377e539a5bd2b8be23c533.png
3.2 prefix tuning
cda18b4e885d04a450bb416c2c147d5a.png
3.3 adapter
d537af7a96f879e3af6acf4f3d5c5fd0.png
3.4 LLaMA adapter
79c1daafd95b4be92a481bbe441444d8.png
3.5 LoRA
1d947b30aa27bd9df0fa2f09ef2591ae.png
3.6 实验比较
b66188276f432a701852a72ced98e105.png

4. 参考文献

001a8920dbc201d595df2bb1a40f0761.png

END

625ff73b35bbbef891a1e26b1c8b4829.png

分享

收藏

点赞

在看

2b04ff071752fa8df317ef1b6f880f92.gif

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐