首个国产芯片训练SOTA模型GLM-Image上线，基于昇腾玩转推理

1月14日，智谱联合华为开源新一代图像生成模型GLM-Image，模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。GLM-Image采用自主创新的「自回归+扩散解码器」混合架构，实现了图像生成与语言模型的联合，是智谱面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次

魔乐社区

728人浏览 · 2026-01-20 16:28:41

魔乐社区 · 2026-01-20 16:28:41 发布

1月14日，智谱联合华为开源新一代图像生成模型GLM-Image，模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。

GLM-Image采用自主创新的「自回归+扩散解码器」混合架构，实现了图像生成与语言模型的联合，是智谱面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。

GLM-Image已上线魔乐社区, 同步上线基于昇腾和MindIE的推理实践。访问下方链接即可体验~

🔗 模型直达：https://modelers.cn/models/zhipuai/GLM-Image
🔗 基于昇腾的推理实践: https://modelers.cn/models/MindIE/GLM-Image

01 模型亮点

架构革新，面向「认知型生成」的技术探索：采用创新的「自回归 + 扩散编码器」混合架构，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题，向探索以Nano Banana Pro为代表的新一代“知识+推理”的认知型生成模型迈出了重要一步。
首个在国产芯片完成全程训练的SOTA模型：模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架，完成了从数据预处理到大规模训练的全流程构建，验证了在国产全栈算力底座上训练前沿模型的可行性。
文字渲染开源SOTA：在CVTG-2K（复杂视觉文本生成）和LongText-Bench（长文本渲染）榜单获得开源第一，尤其擅长汉字生成任务。

GLM-Image是智谱对国产计算生态的一次深度探索与验证。其自回归结构基座从早期的数据预处理到最终的大规模预训练，全流程均在昇腾Atlas 800T A2设备上完成。

依托昇腾NPU和昇思MindSpore AI框架，使用动态图多级流水下发、高性能融合算子、多流并行等特性，智谱自研了模型训练套件，全面优化数据预处理、预训练、SFT和RL的端到端流程。通过动态图的多级流水优化机制，将Host侧算子下发的关键阶段流水化并高度重叠，消除下发瓶颈；通过多流并行策略，通信和计算互掩，打破文本梯度同步、图像特征广播等操作的通信墙，极致优化性能；使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子，同步提升训练的稳定性和性能。

GLM-Image是首个在国产芯片上完成全流程训练的SOTA多模态模型，验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。