3月28日下午,魔乐社区GeekDay上海站, 一场关于大模型量化的极限挑战正在上演。来自某新能源汽车企业的算法工程师张振,在 4 小时的紧张比赛中,成功完成全部流程、顺利通过精度验收,斩获本次 GeekDay 挑战赛冠军。

当被问及夺冠感受时,他说了这样一句话:“量化没有捷径,但有方法——从敏感层入手,用赛马破局,每一步都算数。”

让我们走进这位冠军选手,听他讲述从算法理解到工程落地的完整量化之路。

6186e53405d15bb706c9dfb9cd78deed.jpg


01 从智能底盘到大模型量化

张振目前在某新能源汽车的汽车技术中心智能底盘组担任算法工程师,主要方向是深度学习和视觉语言模型(VLM)。他的工作涉及将大模型能力融入智能底盘系统,探索人车交互、场景感知和理解等应用。

“其实挺现实的——大模型要落地,量化是必经之路。”谈及接触量化的契机,张振直言不讳,“无论是云端部署还是端侧部署,模型动辄几十 GB 甚至上百 GB,不量化根本没法用。”

他回忆最早接触量化是在做模型端侧部署的时候:“发现同样的算力下,量化后的模型推理速度能翻好几倍,而精度损失却控制在可接受范围内。这种‘性价比’让我觉得这项技术非常值得深入。”

在张振的工作中,量化主要应用在两类场景:云端大模型部署追求高吞吐,端侧大模型部署追求低延迟和低功耗。“尤其是端侧,车载芯片的算力有限,我们必须把模型压到 INT4 甚至更低,才能在车上跑得起来。”

02 为什么来参加挑战赛?

张振是从 DataFun 社区了解到这次比赛的。“看到 Qwen3-Next-80B 这个模型,150GB 大小、47 层、MoE 架构,这种规模在实际工作中很有代表性。” 他想验证自己平时积累的量化方法论,也借机会和同行交流学习。

赛前,他主要做了环境配置和模型下载。“这个模型确实很大,150GB 光下载就花了不少时间。”他对 Qwen3-Next 的架构算是比较熟悉,MoE 结构、全注意力层、线性注意力这些之前都接触过。“但真正上手量化时,还是得重新梳理一遍子图结构,确保离群值抑制能正确覆盖到专家层。”

03 算法选择与技术攻坚

在算法选择上,张振最终选用了 Iterative Smooth。“一开始也试了 SmoothQuant,但在 W4A8 场景下效果不太理想。”他解释道,“Iterative Smooth 在运行速度和精度之间平衡得比较好,而且它能把激活的 scale 值转移到相邻层,对我们这个模型的 MoE 结构支持得很好。赛前讲师们也分享了一些经验,Iterative Smooth 往往是首选。”

最大的技术难点:敏感层处理

“W4A8 本身精度损失就不小,如果不对敏感层做特殊保护,精度会直接崩掉。”张振回忆,当时量化的模型输出甚至出现乱码,经过排查确认是量化导致的,不是环境或评测波动。

攻坚过程分几步走:

  • 敏感层分析:先用敏感层分析工具跑一遍,msModelSlim 的 analyze 命令帮他们生成了各
  • 层的量化敏感度排序,top 15 的敏感层一目了然。敏感层回退:对敏感层不做量化,保持浮点精度。尤其是 self_attn.o_proj 和那些 mlp.experts.*.down_proj,根据敏感层结果逐一加到 fallback 里。
  • 调整量化粒度:对比后发现 per_token 的激活量化比 per_tensor 效果好很多,精度大幅提升。
  • 子图映射补充:在 adapter 配置里为 MoE 专家层补充了子图映射,确保 Iterative Smooth 能覆盖到每个专家。

调试技巧:组内赛马

“一个比较有效的做法是组内赛马——我们几个人同时用不同的量化策略跑实验。” 张振分享道,“比如 A 用 Iterative Smooth,B 用 Flex Smooth Quant,C 试不同的 alpha 值。”

因为一次量化要 3 小时,评测一次半小时,时间成本很高,并行实验能大幅提高迭代效率。

另一个技巧是分阶段验证:先跑浮点模型确认推理引擎没问题,再逐层打开量化特性,观察精度变化。“如果某一步精度突然下降,就能快速定位问题层。”

04 夺冠时刻

“很激动!”当得知自己是完成全部挑战的选手之一时,张振难掩兴奋。“因为赛前看到很多优秀的选手。最后能完成全部挑战,确实有一种‘功夫不负有心人’的感觉。”

谈及夺冠的关键因素,他总结了三点:“永不放弃,加上赛马机制。每次量化都要等 3 小时,评测半小时,这个周期很长。如果只有一个方向试错,根本来不及。我们组内并行推进多种方案,相互验证,才能在有限的时间里找到最优解。另外,对敏感层分析的重视也起到了决定性作用,没有它,我们可能还在盲调。”

比赛过程中有没有想过放弃?“说实话,第一次量化完成发现vLLM无法部署的时候,心里确实有点慌,感觉这个模型很难搞。”他坦言,“但想到前期准备的投入,还有队友还在跑其他实验,就咬咬牙继续了。当看到新的量化方式实现了模型量化,并第一次成功拉起服务的时候,那种成就感就支撑我坚持到最后。”

05 量化技术心得分享

对于正在学习量化技术的开发者,张振分享了三条核心经验:

1. 敏感层分析是“体检”,一定要做

“别凭感觉猜哪些层敏感,用工具跑出数据再决策。top 15 敏感层直接回退或混合精度,能保住大部分精度。”

2. 量化策略别一把梭,分阶段验证

“先确认浮点模型没问题,再开量化,最后调离群值抑制,每一步都要验证,出了问题才好定位。”

3. 赛马机制真的有用

“量化实验周期长,多个方案并行跑,能帮你更快找到最优组合。一个人单打独斗很容易卡在某个局部最优里。”

在离群值抑制算法方面,他更看好 Iterative Smooth:“它在精度和速度之间平衡得最好,适配性也强,我们这次就是用它最终跑通的。Flex Smooth Quant 精度可能更高,但需要自动搜索超参,时间成本大,适合有时间余量的场景。SmoothQuant 作为起点没问题,但遇到复杂模型时可能不够用。”

06 对话冠军:关于国产算力与未来展望

如何看待国产算力生态?

“我觉得进步非常快。msModelSlim 这套工具链让我印象深刻,它把离群值抑制、量化策略、校准集优化、敏感层分析、量化回退这些环节都串起来了,形成了一个完整的精度调优机制。而且文档和接口都比较清晰,上手不难。国产算力生态这两年确实在发力,从芯片到工具链,能感觉到越来越务实。”

未来在量化技术方向有什么计划?

“继续深耕多模态模型的量化,特别是 VLM 这类复杂模型。现在视觉和语言两个模态都要量化,难度更大,但也更有挑战性。我想探索更多自动化调优的方法,减少人工介入,让量化变得更‘智能’。”

会推荐身边的开发者朋友来参加魔乐社区的活动吗?

“会。这种实战型的比赛对技术提升很有帮助,能让你在有限时间内把一套完整的方法论跑通,积累的经验非常宝贵。而且能和同行交流,看到不同的解题思路,这对个人成长很有价值。”

07 结语

比赛结束了,但量化技术的探索远未停止。对于张振来说,这次夺冠只是一个新的起点。

“量化没有捷径,但有方法——从敏感层入手,用赛马破局,每一步都算数。” 这句话或许正是他一路走来的真实写照。

正如他在采访最后所说的:“未来我会继续深耕量化方向,尤其是在多模态模型和自动化调优上做更多尝试。”量化之路,才刚刚开始。

相关资源:

  • 魔乐社区大模型量化专区:https://modelers.cn/topics/quantization·
  • 张振的 GitHub:https://github.com/CarryChang
  • msModelSlim 代码仓:https://gitcode.com/Ascend/msmodelslim
  • msModelSlim文档:https://msmodelslim.readthedocs.io/
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐