大模型显存占用分析

下图以Transformer中的全连接层为例，每一个全连接层的输入参数维度为[batch, 句子长度, 每个token维度]4.模型的中间计算结果，因为反向传播求导时会用到，需要存储每一层的输入。3.优化器参数（占大头）：以Adam参数为例，还需要在显卡中额外存储。1. 模型本身参数，假设是1个单位。2.模型的梯度，同样也是一个单位。两个参数，因此为2个单位参数。

佛系调参

2993人浏览 · 2023-06-27 21:27:36

佛系调参 · 2023-06-27 21:27:36 发布

大模型显存占用由以下几部分组成：

1. 模型本身参数，假设是1个单位

2.模型的梯度，同样也是一个单位

3.优化器参数（占大头）：以Adam参数为例，还需要在显卡中额外存储m和v两个参数，因此为2个单位参数

4.模型的中间计算结果，因为反向传播求导时会用到，需要存储每一层的输入x（下图以Transformer中的全连接层为例，每一个全连接层的输入参数维度为[batch, 句子长度, 每个token维度]）

以11B大小模型为例，其模型参数占据显存大小就为40GB，再加上其余三个部分后显存花销更大

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda