Deepseek-mHC（一文看懂mHC：让大模型训练更稳、更强的“残差连接2.0）

mHC的价值，不止是“修复”了HC的漏洞，更给大模型架构设计提供了新思路：拓扑创新要兼顾“灵活性”和“稳定性”：单纯拓宽信息通道（HC）不够，还要给通道加“约束规则”（流形约束），才能支撑大规模训练。架构优化要“软硬结合”：不仅要设计好算法逻辑，还要优化底层基建（核融合、通信重叠），才能在不牺牲效率的前提下提升性能。对于普通读者来说，mHC的落地意义很直接：未来的大模型会训练得更快、更稳定，AI产

DXL_note

1399人浏览 · 2026-01-05 00:27:48

DXL_note · 2026-01-05 00:27:48 发布

在AI大模型越来越“卷参数、卷数据”的今天，训练稳定性和 scalability（可扩展性）成了核心痛点——模型越大，越容易出现训练崩溃、效率暴跌的问题。而DeepSeek-AI团队提出的Manifold-Constrained Hyper-Connections（mHC），正是针对这一痛点的“特效药”。它在不牺牲性能的前提下，解决了现有架构的稳定性难题，还能轻松适配大规模训练。下面用通俗的语言拆解这项技术的核心逻辑。

1 mHC小结

一、先搞懂：我们为什么需要“残差连接”？

要理解mHC，得先从AI架构的“基石”——残差连接（Residual Connection）说起。

你可以把神经网络的每一层想象成一个“信息加工厂”：输入数据（比如文本、图像特征）进去，经过复杂计算后输出。但随着模型层数变深（现在大模型动辄上百层），信息在传递中容易“损耗”或“失真”，就像信号在电线里传输会衰减一样。

残差连接的作用，就是给信息加了一条“直达通道”：让浅层的原始信息不经过复杂计算，直接传到深层。这样一来，深层网络既能拿到加工后的特征，又能保留原始信息，训练起来更稳定、收敛更快。这也是ResNet、Transformer等经典架构能成功的关键——残差连接就像“信息高速公路”，保证了信号的顺畅传递。

二、HC的“进步”与“漏洞”：拓宽公路，却没了交通规则

既然残差连接这么好用，研究者们自然想让它更强大——于是Hyper-Connections（HC，超连接）应运而生。

HC的核心思路是“拓宽信息高速公路”：把原来的单条残差流，扩展成n条并行流（比如n=4），还加入了可学习的“调节开关”（三个映射矩阵），让不同流之间的信息能灵活交互。这样一来，模型的拓扑复杂度提升了，能捕捉更多复杂特征，性能确实涨了。

但问题也随之而来：

训练不稳定：HC的“调节开关”是无约束的——就像拓宽了公路，却没有交通规则，车辆（信息）可能越跑越快（信号放大）或越跑越慢（信号消失），到了深层直接“堵车崩溃”（训练 loss 暴涨、梯度爆炸）。
资源开销大：n条并行流意味着更多的内存访问和通信成本，就像多车道公路需要更多收费站，反而拖慢了整体效率。

简单说，HC是“只顾拓宽路，没管交通秩序”，导致大模型训练时“容易崩、跑不快”。

三、mHC的核心创新：给“信息公路”加规则+优化基建

mHC的本质，是给HC的“无约束公路”加上“交通规则”，再优化“道路基建”，既保留HC的性能优势，又解决了它的痛点。核心分为两大块：

1. 核心约束：用“双随机矩阵”稳住信息传播

mHC的关键创新是“流形约束”——把HC中最关键的“残差映射矩阵（H_res）”，通过一种叫Sinkhorn-Knopp的算法，投影到“双随机矩阵”构成的流形上。

这句话听起来复杂，通俗解释就是：

双随机矩阵的规则：每行、每列的数值和都是1，且所有数值非负。
效果：信息在n条并行流中传递时，既不会被无限制放大（避免梯度爆炸），也不会消失（避免梯度消失），就像车辆按限速行驶，不会拥堵或掉队。
额外好处：这种矩阵的组合还能让不同流的信息更均匀地融合，相当于“优化了交通调度”，进一步提升模型性能。

更妙的是，当n=1时，mHC会自动退化成原始的残差连接，完全兼容现有架构——相当于“老公路也能无缝升级”。

2. 基建优化：让“公路”跑起来更高效

解决了稳定性问题，mHC还针对HC的资源开销痛点，做了三项关键优化：

核融合（Kernel Fusion）：把多个零散的计算步骤合并成一个“超级计算单元”，减少内存读写次数，就像把收费站合并成“ETC快速通道”，提升通行效率。
选择性重计算（Recomputing）：训练时只保存关键中间结果，其他结果在需要时再实时计算，大幅减少GPU内存占用——相当于“不占用多余停车场，却不影响车辆通行”。
通信重叠（Overlapping Communication）：在大规模分布式训练中，让数据传输和计算同时进行，减少等待时间，就像“一边修路一边通车”，不浪费时间。

四、效果：稳定、能打、还不费资源

mHC的效果可以用“三赢”来概括：

1. 训练更稳：再也不怕“中途崩溃”

在27B参数的大模型训练中，HC在12k步左右就出现loss暴涨（训练崩溃），而mHC的loss全程平稳下降，梯度 norm（衡量训练稳定性的关键指标）和基线模型一样稳定——相当于“HC跑着跑着翻车了，mHC却能稳稳开到终点”。

2. 性能更强：推理、理解全面提升

在8个主流 benchmarks（比如BBH推理、MMLU知识问答、GSM8K数学题）中，mHC不仅全面超越基线模型，还在大多数任务上超过HC：

BBH推理任务提升2.1%，DROP阅读理解提升2.3%——相当于“不仅跑的稳，还跑的更快、更远”。

3. 效率更高：只多6.7%开销，换来了质的飞跃

虽然加了约束和优化，但mHC在n=4（常用扩展率）时，只增加了6.7%的训练时间开销，却解决了HC的致命问题——对于大模型训练来说，这是“性价比极高”的提升。

五、总结：mHC对AI架构的意义

mHC的价值，不止是“修复”了HC的漏洞，更给大模型架构设计提供了新思路：

拓扑创新要兼顾“灵活性”和“稳定性”：单纯拓宽信息通道（HC）不够，还要给通道加“约束规则”（流形约束），才能支撑大规模训练。
架构优化要“软硬结合”：不仅要设计好算法逻辑，还要优化底层基建（核融合、通信重叠），才能在不牺牲效率的前提下提升性能。

对于普通读者来说，mHC的落地意义很直接：未来的大模型会训练得更快、更稳定，AI产品（比如智能助手、代码生成工具）的性能和可靠性也会随之提升；对于AI研究者来说，mHC打开了“流形约束+基建优化”的新方向，可能会推动下一代基础模型的架构进化。

这项技术用“小改动”解决了大问题，堪称残差连接的“2.0升级”——毕竟在大模型竞争中，“能稳定跑完、还能持续变强”，才是最核心的竞争力。

2 搞懂mHC的“前辈们”：AI架构如何从“能跑”进化到“稳跑”？

用通俗的话讲，AI架构的进化分两大方向：“内部零件”优化（微观设计）和“整体框架”优化（宏观设计），逐个说清楚：

一、微观设计：给模型的“内部零件”升级

微观设计管的是模型的“核心组件”，比如数据怎么处理、特征怎么提取，相当于给汽车优化发动机、变速箱，让单个零件更高效。

早期：靠“卷积”打天下。卷积能高效处理图像、文本这类结构化数据，后来又出了深度可分离卷积、分组卷积，都是为了“少干活多办事”，降低计算成本。
现在：Transformer成了“主流架构”。核心是两个零件：注意力机制（负责全局信息沟通，比如理解文本上下文）和前馈网络（FFN，负责强化单个特征）。
优化方向：往“高效”走。比如注意力机制进化出MQA、GQA，前馈网络进化出MoE（专家混合模型），核心都是“不盲目堆参数”——比如MoE让模型只有部分“专家”干活，既提升能力又不增加太多计算量。

简单说，微观设计的核心是：把模型的“内部零件”磨得更锋利，让单个组件又快又能打。

二、宏观设计：给模型的“整体框架”铺路

宏观设计管的是模型的“层间连接”，比如信息怎么在不同层之间传递，相当于给汽车设计底盘和传动系统，让整体跑得更顺。

早期：ResNet的“残差连接”是里程碑。就像给信息加了“直达通道”，解决了深层模型信息损耗的问题，让模型能“堆层数”而不崩溃。
后来：往“拓宽通道”进化。比如DenseNet的稠密连接、DLA的深层聚合，都是想让层间信息交互更充分。
关键节点：HC（超连接）的出现。它把残差连接的“单通道”拓宽成n条并行流，还加了可学习的“调节开关”，让信息交互更灵活，性能确实涨了——但问题也来了：
- 没约束：“调节开关”想怎么调就怎么调，信息在深层会无限放大或消失，训练容易崩；
- 开销大：多通道需要更多内存和数据传输，相当于多车道公路多了一堆收费站，拖慢效率。

除此之外，还有RMT、MUDDFormer等架构，也都是在拓宽通道、优化层间连接，但都没解决“破坏恒等映射、导致不稳定”的核心问题。

简单说，宏观设计的核心是：把模型的“信息通道”修得更宽、更灵活，但却没给通道加“交通规则”，导致大模型跑起来容易“翻车”。

三、总结：mHC的“精准补位”价值

看了这些“前辈们”的进化史，就明白mHC的聪明之处了：

它没有颠覆现有架构，而是精准瞄准了宏观设计的“致命漏洞”——比如HC这类拓宽通道的架构，虽然拓扑更复杂、性能更强，但破坏了残差连接的“恒等映射”，导致不稳定、开销大。

mHC的核心动作就是“补坑”：给HC的“信息通道”加“交通规则”（双随机矩阵约束），再优化“道路基建”（核融合、重计算），既保留了拓宽通道的性能优势，又解决了稳定性和效率问题。

这也正是相关工作的意义：mHC不是凭空创造的，而是基于AI架构几十年的进化，针对行业痛点的“精准改进”——它证明了：好的技术不是颠覆，而是让成熟的框架“更稳、更快、更强”。

3 读懂HC的“致命短板”

一、先搞懂HC的“基础操作”：怎么拓宽信息通道？

HC的核心是“把单条信息通道拆成n条并行流”（比如n=4），但要让这n条流正常工作，它加了三个“辅助工具”（可学习映射）：

H_pre：把n条流的信息“汇总”成1条，交给模型核心层处理；
H_post：把核心层的输出“拆分”回n条流，继续传递；
H_res：在n条流内部“调节”信息，让不同流的特征互相交流。

这三个工具的工作逻辑分两类：

动态映射：跟着输入数据变，比如处理不同文本时，调节规则不一样；
静态映射：固定的基础规则，保证信息传递不跑偏。

关键实验发现（消融实验）：这三个工具里，H_res是“核心功臣”——只要有它，性能就能涨0.022；加上另外两个，性能只多涨0.005。也就是说，HC的性能提升，主要靠H_res在多流之间做信息融合。

而且HC很聪明：这三个工具的计算成本极低（n通常是4，远小于输入维度C），不会增加太多浮点运算（FLOPs），相当于“花小钱办大事”。

二、HC的第一个致命问题：数值不稳定，训练必崩

虽然H_res能提性能，但它有个大bug：“没规矩”——作为可学习映射，它的参数不受约束，就像让信息在多车道公路上随便跑，没有限速和交通灯。

具体后果很严重：

当模型层数变深（比如几十层），H_res的影响会被“放大”，导致信息信号要么无限放大（梯度爆炸），要么越传越弱（梯度消失）；
实验数据很直观：27B模型训练到12k步时，HC的损失值突然暴涨（直接崩溃），而它的“信号放大倍数”（Amax Gain）峰值高达3000——相当于正常信号被放大了3000倍，模型根本扛不住；
这直接违背了残差连接的初衷：残差连接是让信息“顺畅传递”，而HC的无约束设计，反而让信息传递“失控”。

三、HC的第二个致命问题：系统开销太大，跑不快

HC虽然没增加太多计算量，但在“硬件资源利用”上一塌糊涂，主要问题是“内存访问和通信成本太高”：

内存访问（I/O）成本：n条并行流意味着要读写更多数据，成本大概和n成正比（比如n=4，成本就约为原来的4倍），这就是行业说的“内存墙”——数据在内存里来回倒腾，比实际计算还费时间；
GPU内存占用：三个映射都有可学习参数，训练时要保存它们的中间结果，导致GPU内存不够用，不得不启用“梯度检查点”（一种省内存的技术），反而又拖慢了速度；
通信成本：大规模分布式训练时，HC需要n倍的通信量，比如n=4，数据传输量就是原来的4倍，导致训练时出现大量“空闲等待”，吞吐量暴跌。

5 揭秘mHC的“解题思路”：怎么搞定大模型的“稳”与“快”

这一章直接给出mHC的“全套解决方案”。核心逻辑很简单：用“约束”解决稳定性，用“基建优化”解决效率问题，最终实现“稳、快、强”的三重目标。

用通俗的话拆解，mHC的解决方案分两大块：先给信息传播“立规矩”，再给硬件运行“提效率”。

一、核心约束：给信息传播立“交通规则”

mHC最关键的创新，是给HC的“无约束信息通道”加了一道硬限制——让核心的残差映射矩阵（H_res）变成“双随机矩阵”。这步操作看似复杂，其实就是三个核心逻辑：

1. 双随机矩阵：信息传播的“限速+均衡”神器

双随机矩阵有两个铁规矩：

每行、每列的数值总和都是1，且所有数值都是非负数；
效果：信息在n条并行流里传递时，既不会被无限放大（梯度爆炸），也不会越传越弱（梯度消失），就像车辆按限速行驶，还能均匀分配车道资源。

更妙的是，这种矩阵有“组合不变性”——多个双随机矩阵相乘，结果还是双随机矩阵。这意味着哪怕模型有几十、上百层，信息传播的稳定性也能一直保持，从浅层到深层都不会“翻车”。

2. 怎么实现？Sinkhorn-Knopp算法的“魔法”

要把HC的无约束矩阵变成双随机矩阵，mHC用了一个经典算法：Sinkhorn-Knopp。它的工作流程超简单：

先把矩阵里的所有数值变成正数（避免正负抵消）；
反复迭代调整行和列，直到每行、每列的和都等于1（实验中迭代20次就够，效率很高）；
最终得到的矩阵，既满足约束，又能保留HC多流交互的性能优势。

3. 额外优化：给输入输出映射“加防护”

除了核心的H_res，mHC还对H_pre（信息汇总）和H_post（信息拆分）做了小约束——让它们的数值都是非负数。这样能避免正负系数抵消导致的信号失真，相当于给信息通道加了“防护栏”，进一步提升稳定性。

二、参数计算：怎么得到“合规”的映射矩阵？

mHC的参数计算逻辑很简洁，全程不复杂，核心是“先算基础值，再做约束”：

先把第l层的输入特征“压平”成一个向量，保留完整的上下文信息；
用和HC类似的方式，计算出H_pre、H_post、H_res的“基础版本”（包含动态映射和静态映射）；
最后用约束规则“修正”：H_pre和H_post用Sigmoid函数变成非负数，H_res用Sinkhorn-Knopp算法变成双随机矩阵。

整个过程既兼容了HC的设计思路，又通过最后一步约束解决了核心问题，相当于“在原有框架上做精准修补”，升级成本极低。

三、基建优化：三招搞定“高开销”，只多6.7%成本

解决了稳定性，mHC还针对性优化了HC的高内存、高通信开销问题，三招让硬件效率拉满：

1. 核融合（Kernel Fusion）：把“零散收费站”改成“ETC快速通道”

mHC把多个零散的计算步骤（比如矩阵乘法、归一化、偏置加法）合并成一个“超级计算单元”，减少了数据在内存里来回读写的次数。原本需要多次调用硬件资源的操作，现在一次就能完成，内存带宽利用率大幅提升，训练速度自然变快。

2. 选择性重计算：“不占多余停车场，还不影响通行”

训练大模型时，中间结果会占用大量GPU内存。mHC的做法是：只保存最关键的中间结果（比如每块图层的第一个输入），其他结果在反向传播时再实时计算。这样一来，GPU内存占用大幅减少，不用额外升级硬件就能支持更大模型。

3. 通信重叠：“一边修路，一边通车”

大规模分布式训练时，数据在不同设备间传输会浪费大量时间（比如A设备等B设备的数据，才能继续计算）。mHC优化了DualPipe调度策略，让数据传输和计算同时进行：比如在传输数据的同时，执行前馈网络的计算任务，彻底消除“等待时间”，提升整体吞吐量。

6 用数据说话：mHC的实验结果到底有多能打？

核心结论很直接：mHC在稳定性、性能、可扩展性上全面碾压HC和传统基线，还只多了6.7%的训练开销。

一、实验怎么设？覆盖“大小模型+多少数据”全场景

为了让结论有说服力，研究团队设计了全面的实验方案，避免“只在小模型上有效”的局限：

模型规模：覆盖3B、9B、27B三个参数级别，重点验证27B大模型（最能暴露训练稳定性问题）；
数据场景：分两种情况——一是“模型+数据按比例缩放”（比如3B配39.3B tokens，27B配262B tokens），二是“固定模型测数据上限”（3B模型训练1.05T tokens，看长期训练效果）；
关键参数：HC和mHC的扩展率n都设为4（行业常用值），统一基于DeepSeek-V3的MoE架构，保证对比公平；
评测标准：既看训练过程的稳定性（loss、梯度范数），也看下游任务性能（8个主流benchmark，涵盖推理、阅读理解、数学题等）。

简单说，实验设计得“够全面、够严谨”，结果说服力拉满。

二、核心结果：稳得住、性能强，双杀基线和HC

针对HC的两大痛点（训练崩、性能有瓶颈），mHC给出了完美的解决方案：

1. 训练稳定性：从“中途翻车”到“全程稳跑”

27B大模型训练中，HC在12k步左右突然出现loss暴涨（直接崩溃），而mHC的loss全程平稳下降，最终比基线模型还低0.021；梯度范数（衡量训练稳定性的核心指标）更是和基线模型几乎重合，完全没有波动——相当于“HC跑一半就熄火，mHC却能匀速冲线”。

2. 下游性能：全面超越，推理能力尤为突出

在8个主流任务中，mHC表现如下：

碾压基线：所有任务都比传统残差连接模型强，MMLU（知识问答）从59.0%涨到63.4%，GSM8K（数学题）从46.7%涨到53.8%；
超越HC：除了MATH（数学竞赛题）基本持平，其他任务都更优，尤其是推理类任务——BBH（复杂推理）提升2.1%，DROP（阅读理解）提升2.3%，这说明mHC的“信息融合”更高效，模型理解和推理能力更强。

三、缩放实验：模型越大、数据越多，优势越明显

大模型的核心需求是“可扩展”——能从小模型平滑升级到超大模型，数据喂得越多性能越好。mHC在这方面表现拉满：

模型缩放（3B→9B→27B）：随着参数和计算量增加，mHC的性能优势没有衰减，反而保持稳定——27B模型的效果提升和3B、9B一致，说明它能支撑超大模型训练；
数据缩放（3B模型从39.3B→1.05T tokens）：训练 tokens 增加到原来的26倍，mHC的loss依然持续下降，没有出现“数据喂饱后性能停滞”的问题，长期训练稳定性极强。

这意味着mHC不仅能适配“小模型快速迭代”，还能支撑“千亿级大模型规模化训练”，实用性拉满。

四、稳定性深挖：信号放大从3000倍降到1.6倍

为了搞清楚mHC为什么稳，研究团队还做了深层分析：

HC的问题：单层映射的信号放大倍数就不稳定，多层叠加后更是失控，复合映射的“最大绝对增益”峰值高达3000——相当于信号被放大3000倍，模型根本扛不住；
mHC的解决方案：通过双随机矩阵约束，单层映射的信号增益接近1，多层叠加后最大也才1.6，足足降低了三个数量级；而且所有传播路径的增益都很均匀，没有“局部失控”的情况——相当于“给信号装了精准限速器，不管传多少层都不超速”。

从矩阵可视化结果也能看出来：HC的映射矩阵数值波动极大，而mHC的矩阵每行每列和都接近1，分布均匀，信息传播稳定可控。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r