MindSpeed LLM适配Qwen3新模型并上线魔乐社区,快速部署与推理教程来啦!
Qwen3近期新模型已上线魔乐社区,欢迎体验!
在最近的一周多时间里,Qwen接连放出了好几款新模型:07.30,Qwen3-30B-A3B-Instruct-2507 (Qwen3-30B-A3B 非思考模式的更新版本);07.31,Qwen3-30B-A3B-Thinking-2507 (Qwen3-30B-A3B思考模式的更新版本);08.01,Qwen3-Coder-30B-A3B-Instruct (Qwen3-Coder的精简版)。MindSpeed LLM作为昇腾AI生态的重要技术支撑,专为大规模语言模型设计,具有超强的计算能力和灵活的开发支持。目前,MindSpeed LLM已迅速实现了对Qwen3新模型的无缝支持。
该系列的模型已上线魔乐社区,欢迎下载体验!
🔗模型链接:
https://modelers.cn/models/MindSpeed/Qwen3-30B-A3B-Instruct-2507
https://modelers.cn/models/MindSpeed/Qwen3-30B-A3B-Thinking-2507
https://modelers.cn/models/MindSpeed/Qwen3-Coder-30B-A3B-Instruct
01
模型介绍
Qwen3-30B-A3B-Instruct-2507
这是一个非思考模式(non-thinking mode)的新模型,仅激活3B参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型的超强性能。Qwen3-30B-A3B-Instruct-2507 通用能力大幅提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多方面;在多语言的长尾知识覆盖方面,模型进步显著;在主观和开放任务中,新模型与进一步紧密对齐了用户偏好,可以生成更高质量的文本,为用户提供更有帮助的回答;长文本理解能力提升至256K。
Qwen3-30B-A3B-Thinking-2507
相较于4月29日开源的Qwen3-30-A3B模型,新模型在推理能力、通用能力及上下文长度上有了显著提升。新模型在聚焦数学能力的AIME25评测中斩获85.0的高分,在代码能力测试LiveCodeBench v6中得分66.0,两项核心推理能力均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。此外,新模型有更长的上下文理解能力,原生支持256K tokens,可扩展至1M tokens。其轻量体积可轻松实现消费级硬件的本地部署。
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-Flash(全称为 Qwen3-Coder-30B-A3B-Instruct)拥有超强的Agent能力,在代理式编程 (Agentic Coding)、浏览器使用(Agentic Browser-Use)、工具调用(Tool Use)等领域,超越当前顶级开源模型,仅略逊于顶配版Qwen3-Coder-480B-A35B-Instruct,及Claude Sonnet-4、GPT4.1等领先闭源模型。原生支持 256K tokens,支持 YaRN 可扩展至 1M tokens。同时,支持多平台使用,具备专门设计的函数调用格式,为Qwen Code、CLINE、Roo Code、Kilo Code等平台作了优化。
以下我们将基于MindSpeed LLM和Qwen3-30B-A3B-Instruct-2507完成从环境准备到模型部署推理的完整过程。
02
环境安装
• 硬件要求
Qwen3的参考硬件配置如下,本文将以A2 单机8卡训练和推理为例进行介绍:
类型 |
硬件 |
配置 |
全参微调 |
NPU |
8 x Ascend NPUs |
• MindSpeed LLM仓库部署
MindSpeed LLM的主要依赖配套如下表,安装步骤参考安装指导(🔗
https://gitee.com/ascend/MindSpeed-LLM/blob/2.1.0/docs/pytorch/install_guide.md)
依赖软件 |
版本 |
昇腾NPU驱动 |
商发版本 |
昇腾NPU固件 |
|
CANN Toolkit(开发套件) |
商发版本 |
CANN Kernel(算子包) |
|
CANN NNAL(Ascend Transformer Boost加速库) |
|
Python |
>=3.10 |
PyTorch |
2.1.0 |
torch_npu插件 |
2.1.0 |
apex |
商发版本 |
(1)仓库拉取
git clone https://gitee.com/ascend/MindSpeed-LLM.git
git clone https://github.com/NVIDIA/Megatron-LM.git
cd Megatron-LM
git checkout core_r0.8.0
cp -r megatron ../MindSpeed-LLM/
cd ..
cd MindSpeed-LLM
mkdir logs
mkdir dataset
mkdir ckpt
(2)环境搭建
torch npu 与 CANN包参考链接:安装包参考链接(🔗
https://support.huawei.com/enterprise/zh/ascend-computing/cann-pid-251168373/software)
# python3.10
conda create -n test python=3.10
conda activate test
# 安装 torch 和 torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whl
pip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl
# apex for Ascend 参考 https://gitee.com/ascend/apex
# 建议从原仓编译安装
# 安装加速库
git clone https://gitee.com/ascend/MindSpeed.git
cd MindSpeed
# checkout commit from MindSpeed core_r0.8.0
git checkout 2c085cc9
pip install -r requirements.txt
pip3 install -e .
cd ../MindSpeed-LLM
git checkout 2.1.0
# 安装其余依赖库
pip install -r requirements.txt
注意:
由于首发最新版本支持,要求transformers版本为4.51.3,用户需执行以下命令:
pip install transformers == 4.51.3
• 权重转换
(1)权重下载
从魔乐社区链接下载权重和配置文件。
https://modelers.cn/models/Modelers_Park/Qwen3-30B-A3B-Instruct-2507
(2)权重转换
MindSpeed LLM提供脚本将开源权重转换为mcore权重,用于训练、推理、评估等任务(脚本链接:https://gitee.com/ascend/MindSpeed-LLM/blob/2.1.0/examples/mcore/qwen3_moe/ckpt_convert_qwen3_moe_hf2mcore.sh)
使用方法如下,请根据实际需要的TP/PP等切分策略和权重路径修改权重转换脚本
cd MindSpeed-LLM
bash examples/mcore/qwen3_moe/ckpt_convert_qwen3_moe_hf2mcore.sh
• 数据预处理
MindSpeed LLM提供脚本进行数据集处理。
使用方法如下,请根据实际需要修改以下参数
cd MindSpeed-LLM
bash examples/mcore/qwen3_moe/data_convert_qwen3_moe_instruction.sh
参数名 |
含义 |
--input |
数据集路径 |
--tokenizer-name-or-path |
模型tokenizer目录 |
--output-prefix |
数据集处理完的输出路径及前缀名 |
• 微调
cd MindSpeed-LLM
bash examples/mcore/qwen3_moe/tune_qwen3_30b_a3b_4K_full_ptd.sh
用户需要根据实际情况修改脚本中以下变量
变量名 |
含义 |
MASTER_ADDR |
多机情况下主节点IP |
NODE_RANK |
多机下,各机对应节点序号 |
CKPT_SAVE_DIR |
训练中权重保存路径 |
DATA_PATH |
数据预处理后的数据路径 |
TOKENIZER_PATH |
qwen3 tokenizer目录 |
CKPT_LOAD_DIR |
权重转换保存的权重路径,为初始加载的权重,如无初始权重则随机初始化 |
• 推理
cd MindSpeed-LLM
bash examples/mcore/qwen3_moe/generate_qwen3_30b_a3b_ptd.sh
用户需要根据实际情况修改脚本中以下变量
变量名 |
含义 |
MASTER_ADDR |
多机情况下主节点IP |
NODE_RANK |
多机下,各机对应节点序号 |
CHECKPOINT |
训练保存的权重路径 |
TOKENIZER_PATH |
qwen3 tokenizer目录 |
欢迎体验
欢迎大家下载体验Qwen3升级版模型,也欢迎广大开发者在模型评论区留言交流!

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)