大模型知识之3b、7b、72b的b

本文介绍了大模型知识的3B 7B 72B

空城雀

567人浏览 · 2025-12-30 16:18:40

空城雀 · 2025-12-30 16:18:40 发布

文章目录

一、原理基础-何为B
- 一句话解释
- 类比理解
三、道理懂了，看个真的
五、实例理解

上一轮工业革命已成历史，这一轮智能革命正在眼前。
我们正见证历史，关注我，一起学习大模型。

一、原理基础-何为B

诸君请带着科学的眼光看待“B”。
你们都知道Byte，但这里的B是Billion（十亿），形容的对象是参数，那前面加上数字的就是
3B = 30亿参数
7B = 70亿参数
72B = 720亿参数

参数又是什么意思呢?并不是词汇库，要注意别和token混淆。
参数是神经网络中的可调节权重值，是模型从训练数据中学习到的数学映射关系。绕口吧，往下看。

一句话解释

B是Billion（十亿）。

类比理解

模型大小	参数数量	相当于	硬件需求	使用场景	举例
3B	30亿	一本《三国演义》字数×150倍	手机能跑	聊天机器人、简单问答	Google Gemma-2B, Phi-3-mini
7B	70亿	所有维基百科英文词条数	游戏本/入门显卡	主流开源模型、编程助手	Llama-3-8B, Qwen-7B, 通义千问
13B	130亿	中等规模	中端显卡(16GB显存)	质量较好的对话	Llama-3.1-8B, ChatGLM3
70B	700亿	超大	高端显卡/多卡(40GB+显存)	接近GPT-3.5水平	Llama-3-70B, Qwen-72B
100B+	1000亿+	巨无霸	服务器集群	对标GPT-4	GPT-4, Claude-3

三、道理懂了，看个真的

大模型内部就是一堆这样的数字矩阵

参数矩阵 = [
    [0.153, -0.842, 0.027, ...],  # 第1个神经元
    [0.004, 0.921, -0.356, ...],  # 第2个神经元  
    [-0.738, 0.112, 0.649, ...],  # 第3个神经元
    ...  # 每个浮点数都是一个参数，72b就有72亿个这样的浮点数
]

输入"你好",等于输入 [0.2, 0.8, -0.1, …] # 也就是被向量化的"你好"
参数有了，输入有了，输出怎么计算呢？

输出 = 输入 × 参数矩阵

五、实例理解

到这估计你还是对这些浮点数懵懵的，这玩意得多次理解。

1. 你问："苹果是水果吗？"
   ↓
2. 问题变成向量：[0.1, -0.3, 0.8, ...]
   ↓
3. 向量流过70亿个参数（经验规则）这个算法内部过程先不看，也就是Transformer 
   ↓
4. 参数们"投票"决定答案概率：
   - 参数#12345678：苹果是水果 (+0.7分)
   - 参数#87654321：苹果是公司 (-0.2分)  
   - 参数#55555555：水果是甜的 (+0.3分)
   ↓
5. 总分：水果(0.7) vs 公司(-0.2)
   ↓
6. 输出："是的，苹果是水果"