MindSpeed LLM适配Qwen3新模型并上线魔乐社区，快速部署与推理教程来啦！

Qwen3近期新模型已上线魔乐社区，欢迎体验！

魔乐社区

590人浏览 · 2025-08-21 14:08:41

魔乐社区 · 2025-08-21 14:08:41 发布

在最近的一周多时间里，Qwen接连放出了好几款新模型：07.30，Qwen3-30B-A3B-Instruct-2507 (Qwen3-30B-A3B 非思考模式的更新版本)；07.31，Qwen3-30B-A3B-Thinking-2507 (Qwen3-30B-A3B思考模式的更新版本)；08.01，Qwen3-Coder-30B-A3B-Instruct (Qwen3-Coder的精简版)。MindSpeed LLM作为昇腾AI生态的重要技术支撑，专为大规模语言模型设计，具有超强的计算能力和灵活的开发支持。目前，MindSpeed LLM已迅速实现了对Qwen3新模型的无缝支持。

该系列的模型已上线魔乐社区，欢迎下载体验！

🔗模型链接：

https://modelers.cn/models/MindSpeed/Qwen3-30B-A3B-Instruct-2507

https://modelers.cn/models/MindSpeed/Qwen3-30B-A3B-Thinking-2507

https://modelers.cn/models/MindSpeed/Qwen3-Coder-30B-A3B-Instruct

模型介绍

Qwen3-30B-A3B-Instruct-2507

这是一个非思考模式（non-thinking mode）的新模型，仅激活3B参数，就能取得可媲美 Gemini 2.5-Flash（non-thinking）、GPT-4o等顶尖闭源模型的超强性能。Qwen3-30B-A3B-Instruct-2507 通用能力大幅提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多方面；在多语言的长尾知识覆盖方面，模型进步显著；在主观和开放任务中，新模型与进一步紧密对齐了用户偏好，可以生成更高质量的文本，为用户提供更有帮助的回答；长文本理解能力提升至256K。

Qwen3-30B-A3B-Thinking-2507

相较于4月29日开源的Qwen3-30-A3B模型，新模型在推理能力、通用能力及上下文长度上有了显著提升。新模型在聚焦数学能力的AIME25评测中斩获85.0的高分，在代码能力测试LiveCodeBench v6中得分66.0，两项核心推理能力均超越Gemini2.5-Flash（thinking）、Qwen3-235B-A22B（thinking）。此外，新模型有更长的上下文理解能力，原生支持256K tokens，可扩展至1M tokens。其轻量体积可轻松实现消费级硬件的本地部署。

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-Flash（全称为 Qwen3-Coder-30B-A3B-Instruct）拥有超强的Agent能力，在代理式编程 (Agentic Coding)、浏览器使用（Agentic Browser-Use）、工具调用（Tool Use）等领域，超越当前顶级开源模型，仅略逊于顶配版Qwen3-Coder-480B-A35B-Instruct，及Claude Sonnet-4、GPT4.1等领先闭源模型。原生支持 256K tokens，支持 YaRN 可扩展至 1M tokens。同时，支持多平台使用，具备专门设计的函数调用格式，为Qwen Code、CLINE、Roo Code、Kilo Code等平台作了优化。

以下我们将基于MindSpeed LLM和Qwen3-30B-A3B-Instruct-2507完成从环境准备到模型部署推理的完整过程。

环境安装

• 硬件要求

Qwen3的参考硬件配置如下,本文将以A2 单机8卡训练和推理为例进行介绍：

类型	硬件	配置
全参微调	NPU	8 x Ascend NPUs

• MindSpeed LLM仓库部署

MindSpeed LLM的主要依赖配套如下表，安装步骤参考安装指导（🔗

https://gitee.com/ascend/MindSpeed-LLM/blob/2.1.0/docs/pytorch/install_guide.md）

依赖软件	版本
昇腾NPU驱动	商发版本
昇腾NPU固件	商发版本
CANN Toolkit（开发套件）	商发版本
CANN Kernel（算子包）
CANN NNAL（Ascend Transformer Boost加速库）
Python	>=3.10
PyTorch	2.1.0
torch_npu插件	2.1.0
apex	商发版本

（1）仓库拉取

git clone https://gitee.com/ascend/MindSpeed-LLM.gitgit clone https://github.com/NVIDIA/Megatron-LM.gitcd Megatron-LMgit checkout core_r0.8.0cp -r megatron ../MindSpeed-LLM/cd ..cd MindSpeed-LLMmkdir logsmkdir datasetmkdir ckpt

（2）环境搭建

torch npu 与 CANN包参考链接：安装包参考链接（🔗

https://support.huawei.com/enterprise/zh/ascend-computing/cann-pid-251168373/software）

# python3.10conda create -n test python=3.10conda activate test# 安装 torch 和 torch_npu，注意要选择对应python版本、x86或arm的torch、torch_npu及apex包pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whlpip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl# apex for Ascend 参考 https://gitee.com/ascend/apex# 建议从原仓编译安装# 安装加速库git clone https://gitee.com/ascend/MindSpeed.gitcd MindSpeed# checkout commit from MindSpeed core_r0.8.0git checkout 2c085cc9pip install -r requirements.txtpip3 install -e .cd ../MindSpeed-LLMgit checkout 2.1.0# 安装其余依赖库pip install -r requirements.txt

注意：

由于首发最新版本支持，要求transformers版本为4.51.3,用户需执行以下命令：

 pip install transformers == 4.51.3

• 权重转换

（1）权重下载

从魔乐社区链接下载权重和配置文件。

https://modelers.cn/models/Modelers_Park/Qwen3-30B-A3B-Instruct-2507

（2）权重转换

MindSpeed LLM提供脚本将开源权重转换为mcore权重，用于训练、推理、评估等任务（脚本链接：https://gitee.com/ascend/MindSpeed-LLM/blob/2.1.0/examples/mcore/qwen3_moe/ckpt_convert_qwen3_moe_hf2mcore.sh）

使用方法如下，请根据实际需要的TP/PP等切分策略和权重路径修改权重转换脚本

cd MindSpeed-LLMbash examples/mcore/qwen3_moe/ckpt_convert_qwen3_moe_hf2mcore.sh

• 数据预处理

MindSpeed LLM提供脚本进行数据集处理。

使用方法如下，请根据实际需要修改以下参数

cd MindSpeed-LLMbash examples/mcore/qwen3_moe/data_convert_qwen3_moe_instruction.sh

参数名	含义
--input	数据集路径
--tokenizer-name-or-path	模型tokenizer目录
--output-prefix	数据集处理完的输出路径及前缀名

• 微调

cd MindSpeed-LLMbash examples/mcore/qwen3_moe/tune_qwen3_30b_a3b_4K_full_ptd.sh

用户需要根据实际情况修改脚本中以下变量

变量名	含义
MASTER_ADDR	多机情况下主节点IP
NODE_RANK	多机下，各机对应节点序号
CKPT_SAVE_DIR	训练中权重保存路径
DATA_PATH	数据预处理后的数据路径
TOKENIZER_PATH	qwen3 tokenizer目录
CKPT_LOAD_DIR	权重转换保存的权重路径，为初始加载的权重，如无初始权重则随机初始化

• 推理

cd MindSpeed-LLMbash examples/mcore/qwen3_moe/generate_qwen3_30b_a3b_ptd.sh

用户需要根据实际情况修改脚本中以下变量

变量名	含义
MASTER_ADDR	多机情况下主节点IP
NODE_RANK	多机下，各机对应节点序号
CHECKPOINT	训练保存的权重路径
TOKENIZER_PATH	qwen3 tokenizer目录

欢迎体验

欢迎大家下载体验Qwen3升级版模型，也欢迎广大开发者在模型评论区留言交流！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。