边缘计算新玩法：RK3588部署Qwen3-1.7B全流程

本文介绍了基于星图GPU平台自动化部署Qwen3-1.7B镜像的完整流程，结合RK3588边缘计算设备实现高效本地化推理。通过该平台可快速完成模型转换与板端部署，典型应用于AI智能助手、模型微调及LangChain集成开发，显著提升边缘侧大模型应用的响应速度与数据安全性。

含老司开挖掘机

1087人浏览 · 2026-01-15 00:34:29

含老司开挖掘机 · 2026-01-15 00:34:29 发布

边缘计算新玩法：RK3588部署Qwen3-1.7B全流程

随着大语言模型（LLM）在云端的广泛应用，边缘侧推理逐渐成为提升响应速度、降低延迟和保障数据隐私的关键路径。瑞芯微RK3588作为一款高性能AI边缘计算平台，凭借其强大的NPU算力和丰富的接口支持，正被越来越多开发者用于本地化大模型部署。本文将详细介绍如何在RK3588上完整部署阿里巴巴最新开源的 Qwen3-1.7B 模型，并结合LangChain实现高效调用，涵盖模型转换、环境配置、部署测试及常见问题解决。

1. Qwen3-1.7B模型选型与背景

1.1 Qwen3系列模型简介

Qwen3（通义千问3）是阿里巴巴于2025年4月发布的全新一代大语言模型系列，包含6款密集结构模型（0.6B~235B参数）和2款混合专家（MoE）架构模型，全面覆盖轻量级设备到超大规模服务器场景。其中 Qwen3-1.7B 因其在性能与资源消耗之间的良好平衡，成为边缘端部署的理想选择。

该模型具备以下特点： - 支持多轮对话、代码生成、逻辑推理等能力 - 提供FP16、INT4等多种量化版本以适应不同硬件平台 - 开源权重可通过ModelScope直接下载

1.2 为何选择Qwen3-1.7B而非其他变体？

在初期尝试中，笔者曾试图部署更小的 Qwen3-1.7B-FP8 量化版本，期望进一步压缩内存占用并加快推理速度。然而，在使用 rkllm_toolkit 进行模型转换时遇到如下错误：

ERROR: Only quantized models exported by auto-gptq are supported. Load model failed!

经排查发现，当前 RKLLM Toolkit v1.2.1b1 版本仅支持由 auto-gptq 工具链导出的量化模型，而 FP8 格式属于二次压缩格式，未被官方工具链识别。此外，GitHub 官方仓库 airockchip/rknn-llm 明确指出目前支持的 Qwen3 子模型为：

Qwen3-0.6B
Qwen3-1.7B
Qwen3-4B

综合考虑 RK3588 测试板仅有 4GB 内存的限制，最终选定标准精度的 Qwen3-1.7B 模型进行部署，确保兼容性与稳定性。

2. 模型转换流程

由于 RK3588 使用的是 Rockchip 自研的 NPU 架构，原生 PyTorch 或 HuggingFace 模型无法直接运行，必须通过 RKNN-LLM 工具链 转换为 .rkllm 格式。

2.1 转换环境准备

模型转换工作在一台 Ubuntu 22.04 PC 上完成，具体配置如下：

组件	配置
CPU	Intel i7-7700
内存	32GB DDR4
Python	3.12（Anaconda 环境）
CUDA	12.1
其他依赖	modelscope, torch, transformers

注意：从 RKLLM v1.2.1b1 开始已支持 Python 3.12，但需提前设置环境变量以避免编译 CUDA 扩展失败：

export BUILD_CUDA_EXT=0

2.2 安装 RKLLM 工具包

首先克隆官方仓库并安装对应版本的 wheel 包：

git clone https://github.com/airockchip/rknn-llm.git
cd rknn-llm/rkllm-toolkit/
pip3 install rkllm_toolkit-1.2.1b1-cp312-cp312-linux_x86_64.whl -i https://mirrors.aliyun.com/pypi/simple/

提示：由于原始 PyPI 源访问不稳定，建议使用阿里云镜像加速安装过程，减少依赖下载失败风险。

2.3 下载原始模型权重

使用 ModelScope 命令行工具下载 Qwen3-1.7B 的原始权重文件：

modelscope download --model Qwen/Qwen3-1.7B

下载完成后，默认保存路径为 ~/.cache/modelscope/hub/Qwen/Qwen3-1.7B。

2.4 编写模型转换脚本

尽管 RKNN-LLM 示例目录中暂无 Qwen3-1.7B 的专用示例，但可基于已有项目（如 DeepSeek-R1-Distill-Qwen-1.5B）进行适配。

创建自定义转换脚本 export_rkllm-qwen3.py，核心代码如下：

from rkllm.api import RKLLM

# 初始化 RKLLM 对象
rkllm = RKLLM(
    model_path="~/.cache/modelscope/hub/Qwen/Qwen3-1.7B",
    target_platform="RK3588",
    dtype="fp16",  # 可选 fp16/int4
    max_tokens=2048,
    temperature=0.8,
    top_p=0.95
)

# 导出模型
ret = rkllm.export_rkllm("Qwen3-1.7B_W8A8_RK3588.rkllm")
if ret != 0:
    print("Model export failed.")
else:
    print("Model exported successfully.")

执行转换命令：

python export_rkllm-qwen3.py

整个过程耗时约 30分钟，最终生成的 .rkllm 文件大小约为 2.37GB，符合预期。

3. RK3588 板端部署与测试

完成模型转换后，下一步是在 RK3588 开发板上部署并验证模型推理能力。

3.1 准备开发环境

确保开发板系统满足以下条件：

OS：Linux（推荐 Ubuntu 20.04/22.04）
Kernel：5.10+
RKNN-LLM Runtime：v1.2.1b1 或更高版本
存储空间：至少 4GB 可用空间（含模型+运行库）

重要提醒：早期版本（如 v1.1.4）不支持 Qwen3 系列模型，若使用旧版运行库会报错：

Failed to load model: unsupported model type

务必升级至最新运行库！

3.2 上传模型与编译示例程序

将生成的 Qwen3-1.7B_W8A8_RK3588.rkllm 文件上传至开发板指定目录，例如 /userdata/rkllm/models/。

进入 RKNN-LLM 示例工程目录，重新编译适用于 Qwen3 的 demo 程序：

cd rknn-llm/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo
make clean && make

替换模型路径并在主函数中加载新模型：

// 修改 model_path 指向 Qwen3-1.7B.rkllm
const char* model_path = "/userdata/rkllm/models/Qwen3-1.7B_W8A8_RK3588.rkllm";

3.3 启动本地服务并测试推理

成功编译后运行：

./llm_demo

若输出类似以下内容，则表示模型加载成功：

[INFO] Model loaded successfully.
[INFO] Ready for inference...

此时可在板载终端或通过串口输入测试指令，例如：

用户：你是谁？
AI：我是通义千问3（Qwen3），阿里巴巴研发的超大规模语言模型。

推理响应时间平均在 800ms~1.2s 之间（取决于 prompt 长度），完全满足本地交互需求。

4. 结合 LangChain 实现高级调用

为了便于集成进实际应用，可以借助 LangChain 框架封装 Qwen3 推理接口，实现流式输出、思维链（CoT）等功能。

4.1 启动 Jupyter Notebook 服务

在开发板或远程服务器上启动 Jupyter：

jupyter notebook --ip=0.0.0.0 --port=8000 --allow-root

4.2 使用 LangChain 调用 Qwen3-1.7B

利用 ChatOpenAI 接口对接本地部署的服务（假设服务监听在 8000 端口）：

from langchain_openai import ChatOpenAI
import os

chat_model = ChatOpenAI(
    model="Qwen3-1.7B",
    temperature=0.5,
    base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1",  # 替换为实际地址
    api_key="EMPTY",
    extra_body={
        "enable_thinking": True,
        "return_reasoning": True,
    },
    streaming=True,
)

response = chat_model.invoke("请解释什么是边缘计算？")
print(response.content)

说明： - api_key="EMPTY" 表示无需认证 - extra_body 中启用“思考模式”可返回中间推理步骤 - streaming=True 支持逐字输出，提升用户体验

4.3 效果展示

调用成功后，模型不仅能准确回答问题，还能返回结构化的推理过程，适用于教育、客服、智能助手等场景。

5. 总结

本文系统地介绍了在 RK3588 平台上部署 Qwen3-1.7B 大语言模型的完整流程，包括模型选型、环境搭建、转换脚本编写、板端部署以及与 LangChain 的集成方法。关键要点总结如下：

模型兼容性优先：虽然 FP8 更节省空间，但受限于当前 RKLLM 工具链仅支持 auto-gptq 导出的量化模型，应优先选择标准精度版本。
运行库版本匹配：必须使用 v1.2.1b1 及以上版本 的 RKNN-LLM Runtime 才能支持 Qwen3 系列。
转换效率优化：建议在高配 PC 上完成模型转换，避免开发板资源不足导致失败。
LangChain 封装提升可用性：通过标准化 API 接口，可快速接入现有 AI 应用生态，实现流式输出与复杂任务调度。

未来，随着 RKNN-LLM 对更多模型架构的支持以及 Qwen 系列持续迭代，我们有望在更低功耗的边缘设备上运行更大规模的语言模型，真正实现“大模型平民化”。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模