大模型内存减负神器：bitsandbytes 超详细入门指南

bitsandbytes 是一个轻量级的工具库，核心是对 CUDA 函数进行封装，专门解决大模型训练和推理时的显存占用过高问题。你可以把它理解为 “显存压缩大师”，它不改变模型的核心结构和功能，而是通过一系列优化技术，在保证模型性能几乎不下降的前提下，大幅降低显存消耗。8 比特矩阵乘法：支持混合精度分解，计算效率高，显存占用远低于传统 32/16 比特计算LLM.int8 () 推理：专门针对大语

ppbk_

597人浏览 · 2026-01-05 13:50:17

ppbk_ · 2026-01-05 13:50:17 发布

在训练或加载大语言模型（LLM）、多模态模型时，你是不是经常遇到 “显存不足” 的报错？明明显卡配置不算低，却连 7B 参数的模型都加载不起来？今天给大家介绍一款大模型必备工具 ——bitsandbytes，它能轻松帮你节省大量显存，让小显卡也能玩转大模型，而且用法超简单！

一、什么是 bitsandbytes？

先用人话解释：bitsandbytes 是一个轻量级的工具库，核心是对 CUDA 函数进行封装，专门解决大模型训练和推理时的显存占用过高问题。

你可以把它理解为 “显存压缩大师”，它不改变模型的核心结构和功能，而是通过一系列优化技术，在保证模型性能几乎不下降的前提下，大幅降低显存消耗。它的核心特征（不用死记，知道有这些功能就行）：

8 比特矩阵乘法：支持混合精度分解，计算效率高，显存占用远低于传统 32/16 比特计算
LLM.int8 () 推理：专门针对大语言模型的 8 比特推理优化，显存直接腰斩
8 比特优化器：支持 Adam、AdamW、RMSProp 等多种常用优化器，能节省 75% 的训练显存（这对大模型微调太重要了！）
稳定嵌入层：通过优化初始化和标准化，解决低比特量化带来的模型稳定性问题
多种量化方式：支持分位数、线性、动态三种 8 比特量化，适配不同场景
快速分位数估计：量化时的关键步骤，比其他算法快 100 倍，不拖慢训练 / 推理速度
4 比特量化支持：进阶功能，支持 FP4/NF4 两种 4 比特量化，显存节省效果更显著

二、如何才能使用 bitsandbytes？

不用复杂的环境配置，也不用修改模型结构，它的使用门槛极低，唯一条件就是：你要量化的模型包含 torch.nn.Linear 层。

这是什么概念呢？目前主流的大模型（不管是 LLM 还是多模态模型），比如 Whisper（语音模型）、ViT（图像模型）、Blip2（图文模型）、ChatGLM、Llama 等，核心层都是 torch.nn.Linear 层，所以 bitsandbytes 对这些模型都能 “开箱即用”，不用做任何额外的模型改造，直接加载就能实现 8 比特或 4 比特量化。

简单说：只要你用的是 PyTorch 框架的主流模型，就能用 bitsandbytes，没有其他额外限制！

三、如何使用 bitsandbytes？（附实操代码，一步到位）

bitsandbytes 通常和 Hugging Face 的 transformers 库搭配使用，核心是通过 BitsAndBytesConfig 配置量化参数，然后在加载模型时指定该配置即可。下面给大家带来两个最常用的实操示例（4 比特量化，显存节省效果最佳）。

示例 1：使用 NF4 量化加载 4 比特模型（推荐，稳定性更好）

NF4 是专门为大模型权重分布设计的 4 比特量化方式，比普通 FP4 量化效果更优，优先推荐使用。

python

运行

# 1. 导入必要的库
from transformers import BitsAndBytesConfig, AutoModelForCausalLM

# 2. 配置NF4量化参数
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,  # 开启4比特量化
    bnb_4bit_quant_type="nf4",  # 量化类型设为NF4
    bnb_4bit_use_double_quant=True,  # 开启双重量化，进一步节省显存并提升稳定性
    bnb_4bit_compute_dtype=torch.bfloat16  # 计算时使用的精度，推荐bfloat16
)

# 3. 加载模型（替换model_id为你的模型名称/本地路径）
# 比如 model_id = "Llama-2-7b-chat-hf" 或 "./local-llm-model"
model_nf4 = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=nf4_config  # 指定量化配置
)

代码讲解：

load_in_4bit=True：告诉模型我们要以 4 比特精度加载，这是开启 4 比特量化的核心参数
bnb_4bit_quant_type="nf4"：选定 NF4 量化类型，针对性优化大模型，效果更好
bnb_4bit_use_double_quant=True：双重量化是额外的优化，对显存和性能都有帮助，建议开启
bnb_4bit_compute_dtype=torch.bfloat16：加载模型后，模型计算时使用 bfloat16 精度，平衡显存和计算速度

示例 2：使用 FP4 量化加载 4 比特模型（基础通用型）

FP4 是通用的 4 比特浮点量化方式，配置更简单，适合对量化类型没有特殊要求的场景。

python

运行

# 1. 导入必要的库
import torch
from transformers import BitsAndBytesConfig, AutoModelForCausalLM

# 2. 配置FP4量化参数
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,  # 开启4比特量化
    bnb_4bit_compute_dtype=torch.bfloat16  # 计算时使用bfloat16精度
)

# 3. 加载模型（替换model_id为你的模型名称/本地路径）
model_fp4 = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config  # 指定量化配置
)

代码讲解：

相比 NF4 配置，FP4 量化不需要指定 bnb_4bit_quant_type（默认就是 FP4），也可以不开启 bnb_4bit_use_double_quant，配置更简洁
核心功能和 NF4 一致，都是以 4 比特精度加载模型，大幅节省显存
适合快速上手，或者模型对 NF4 量化支持不佳的场景