1. DeepSeek V2 原理解读

1.1 MLA(Multi-head Latent Attention)原理解读

MLA 的思想是将key、value压缩为低维向量,从而达到减少 KV 缓存的目的,实验表明,MLA 相比MHA的缓存大幅降低,仅为GQA (2.25组)时的缓存量。

2. DeepSeekMOE 原理解读

2.1 Fine-Grained Expert Segmentation 原理解释

Fine-Grained Expert Segmentation就是把每个expert FFN 层细分成m个 smaller expert(方法:通过将FFN层的 intermediate hidden dimesion 降低到 original size 的 m份之一。)fine-grained experts 的总个数是 mN 个。nonzero gates 增加到 mK 个。

2.2 Shared Expert Isolation 原理解释

Shared Expert Isolation就是留出Ks个 expert 作为 shared expert,nonzero gates 的 expert 个数为 (mK - Ks),总的 routed experts 个数为 (mN-Ks)。

2.3 Expert-Level Balance Loss 原理解释

Expert-Level Balance Loss 的思想就是让每个专家都被均衡的使用,如果不均衡,就会使训练loss增加,就会受到惩罚。

2.4 Device-Level Balance Loss原理解释

Device-Level Balance Loss 的思想是让各个训练设备的负载尽可能均衡,也就是让每个设备上的任务量都差不多,避免有的设备累得“气喘吁吁”,有的设备却“无所事事”,充分利用好所有设备的计算资源。

3. DeepSeek-V3 原理解读

DeepSeek-V3 整体模型架构跟V2类似,沿用了MLA和DeepSeekMOE技术。创新点在于,在模型架构上做了一些优化,提出了无辅助损失负载均衡技术及多token预测技术。在工程上首次使用FP8混合精度训练大模型。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐