上一轮工业革命已成历史,这一轮智能革命正在眼前。
我们正见证历史,关注我,一起学习大模型。

一、原理基础-何为B

诸君请带着科学的眼光看待“B”。
你们都知道Byte,但这里的B是Billion(十亿),形容的对象是参数,那前面加上数字的就是
3B = 30亿参数
7B = 70亿参数
72B = 720亿参数

参数又是什么意思呢?并不是词汇库,要注意别和token混淆。
参数是神经网络中的可调节权重值,是模型从训练数据中学习到的数学映射关系。绕口吧,往下看。

一句话解释

B是Billion(十亿)。

类比理解

模型大小 参数数量 相当于 硬件需求 使用场景 举例
3B 30亿 一本《三国演义》字数×150倍 手机能跑 聊天机器人、简单问答 Google Gemma-2B, Phi-3-mini
7B 70亿 所有维基百科英文词条数 游戏本/入门显卡 主流开源模型、编程助手 Llama-3-8B, Qwen-7B, 通义千问
13B 130亿 中等规模 中端显卡(16GB显存) 质量较好的对话 Llama-3.1-8B, ChatGLM3
70B 700亿 超大 高端显卡/多卡(40GB+显存) 接近GPT-3.5水平 Llama-3-70B, Qwen-72B
100B+ 1000亿+ 巨无霸 服务器集群 对标GPT-4 GPT-4, Claude-3

三、道理懂了,看个真的

大模型内部就是一堆这样的数字矩阵

参数矩阵 = [
    [0.153, -0.842, 0.027, ...],  # 第1个神经元
    [0.004, 0.921, -0.356, ...],  # 第2个神经元  
    [-0.738, 0.112, 0.649, ...],  # 第3个神经元
    ...  # 每个浮点数都是一个参数,72b就有72亿个这样的浮点数
]

输入"你好",等于输入 [0.2, 0.8, -0.1, …] # 也就是被向量化的"你好"
参数有了,输入有了,输出怎么计算呢?

输出 = 输入 × 参数矩阵

五、实例理解

到这估计你还是对这些浮点数懵懵的,这玩意得多次理解。

1. 你问:"苹果是水果吗?"2. 问题变成向量:[0.1, -0.3, 0.8, ...]3. 向量流过70亿个参数(经验规则)这个算法内部过程先不看,也就是Transformer 
   ↓
4. 参数们"投票"决定答案概率:
   - 参数#12345678:苹果是水果 (+0.7分)
   - 参数#87654321:苹果是公司 (-0.2分)  
   - 参数#55555555:水果是甜的 (+0.3分)5. 总分:水果(0.7) vs 公司(-0.2)6. 输出:"是的,苹果是水果"
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐