大模型知识之3b、7b、72b的b
本文介绍了大模型知识的3B 7B 72B
·
文章目录
上一轮工业革命已成历史,这一轮智能革命正在眼前。
我们正见证历史,关注我,一起学习大模型。
一、原理基础-何为B
诸君请带着科学的眼光看待“B”。
你们都知道Byte,但这里的B是Billion(十亿),形容的对象是参数,那前面加上数字的就是
3B = 30亿参数
7B = 70亿参数
72B = 720亿参数
参数又是什么意思呢?并不是词汇库,要注意别和token混淆。
参数是神经网络中的可调节权重值,是模型从训练数据中学习到的数学映射关系。绕口吧,往下看。
一句话解释
B是Billion(十亿)。
类比理解
| 模型大小 | 参数数量 | 相当于 | 硬件需求 | 使用场景 | 举例 |
|---|---|---|---|---|---|
| 3B | 30亿 | 一本《三国演义》字数×150倍 | 手机能跑 | 聊天机器人、简单问答 | Google Gemma-2B, Phi-3-mini |
| 7B | 70亿 | 所有维基百科英文词条数 | 游戏本/入门显卡 | 主流开源模型、编程助手 | Llama-3-8B, Qwen-7B, 通义千问 |
| 13B | 130亿 | 中等规模 | 中端显卡(16GB显存) | 质量较好的对话 | Llama-3.1-8B, ChatGLM3 |
| 70B | 700亿 | 超大 | 高端显卡/多卡(40GB+显存) | 接近GPT-3.5水平 | Llama-3-70B, Qwen-72B |
| 100B+ | 1000亿+ | 巨无霸 | 服务器集群 | 对标GPT-4 | GPT-4, Claude-3 |
三、道理懂了,看个真的
大模型内部就是一堆这样的数字矩阵
参数矩阵 = [
[0.153, -0.842, 0.027, ...], # 第1个神经元
[0.004, 0.921, -0.356, ...], # 第2个神经元
[-0.738, 0.112, 0.649, ...], # 第3个神经元
... # 每个浮点数都是一个参数,72b就有72亿个这样的浮点数
]
输入"你好",等于输入 [0.2, 0.8, -0.1, …] # 也就是被向量化的"你好"
参数有了,输入有了,输出怎么计算呢?
输出 = 输入 × 参数矩阵
五、实例理解
到这估计你还是对这些浮点数懵懵的,这玩意得多次理解。
1. 你问:"苹果是水果吗?"
↓
2. 问题变成向量:[0.1, -0.3, 0.8, ...]
↓
3. 向量流过70亿个参数(经验规则)这个算法内部过程先不看,也就是Transformer
↓
4. 参数们"投票"决定答案概率:
- 参数#12345678:苹果是水果 (+0.7分)
- 参数#87654321:苹果是公司 (-0.2分)
- 参数#55555555:水果是甜的 (+0.3分)
↓
5. 总分:水果(0.7) vs 公司(-0.2)
↓
6. 输出:"是的,苹果是水果"
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)