deepseek系列阅读笔记

webber2020

434人浏览 · 2025-02-06 19:07:37

webber2020 · 2025-02-06 19:07:37 发布

1. DeepSeek V2 原理解读

1.1 MLA（Multi-head Latent Attention）原理解读

MLA 的思想是将key、value压缩为低维向量，从而达到减少 KV 缓存的目的，实验表明，MLA 相比MHA的缓存大幅降低，仅为GQA （2.25组）时的缓存量。

2. DeepSeekMOE 原理解读

2.1 Fine-Grained Expert Segmentation 原理解释

Fine-Grained Expert Segmentation就是把每个expert FFN 层细分成m个 smaller expert（方法：通过将FFN层的 intermediate hidden dimesion 降低到 original size 的 m份之一。）fine-grained experts 的总个数是 mN 个。nonzero gates 增加到 mK 个。

2.2 Shared Expert Isolation 原理解释

Shared Expert Isolation就是留出Ks个 expert 作为 shared expert，nonzero gates 的 expert 个数为 (mK - Ks)，总的 routed experts 个数为 (mN-Ks)。

2.3 Expert-Level Balance Loss 原理解释

Expert-Level Balance Loss 的思想就是让每个专家都被均衡的使用，如果不均衡，就会使训练loss增加，就会受到惩罚。

2.4 Device-Level Balance Loss原理解释

Device-Level Balance Loss 的思想是让各个训练设备的负载尽可能均衡，也就是让每个设备上的任务量都差不多，避免有的设备累得“气喘吁吁”，有的设备却“无所事事”，充分利用好所有设备的计算资源。

3. DeepSeek-V3 原理解读

DeepSeek-V3 整体模型架构跟V2类似，沿用了MLA和DeepSeekMOE技术。创新点在于，在模型架构上做了一些优化，提出了无辅助损失负载均衡技术及多token预测技术。在工程上首次使用FP8混合精度训练大模型。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模