引言

近年来,随着人工智能(AI)大模型在自然语言处理、代码生成及知识问答等领域的广泛应用,硬件平台的计算性能面临着前所未有的挑战。为了深入探索新一代AI推理硬件的潜力,我们针对搭载AMD AI Max+ 395 CPU的零刻GTR9迷你主机进行了一系列严格的大模型推理速度测试。

本次评测旨在分析不同参数规模的模型在本地环境下的实际运行表现。这些数据不仅能为开发者和AI爱好者选择合适的硬件提供决策依据,也为DFRobot未来可能推出的基于AMD AI Max+ 395 CPU的单板计算机(SBC)提供了关键的性能参考。

测试配置

  • 硬件平台: 零刻 (MINISFORUM) GTR9 迷你主机
  • 核心组件: AMD AI Max+ 395 CPU
  • 任务类型: 本地大语言模型推理
  • 性能指标: Tokens/s (每秒生成Token数) — 该数值越高,代表推理速度越快。
测试问题集

为了全面评估模型性能,我们设计了涵盖多种任务类型的标准化问题:

  1. 综合能力: “你是谁?请详细介绍一下你能干什么。”
  2. 知识问答: “作为专业人工智能专家,请告诉我如何学习深度学习?”
  3. 数学计算: “如果A+B=12, A-B=10,则A的值是?”
  4. 自然语言理解: “识别句子‘我将会在明天早上的8点到湖北黄陂的森林公园’中的所有地名。”
  5. 代码生成: “请使用Python编写一个贪吃蛇游戏。”

测试平台与方法

我们在两大主流推理框架下分别进行了测试,以评估不同软件环境下的性能差异。

  • 推理框架:

    • Ollama
    • LM-Studio
  • 参评大模型:

    • deepseek-r1:70b
    • qwen3 系列(32b / 30b / 14b / 8b)
    • gpt-oss(120b / 20b)

性能指标为 Tokens/s(每秒生成Token数) ——数值越高,代表推理速度越快。

性能测试结果

1. Ollama 框架推理速度

在此框架下,我们记录了各模型针对五个标准问题的推理速度,结果如下:

图1. 使用Ollama推理gpt-oss:20b模型测试

表1. 使用Ollama推理大模型的速度测试结果 (Tokens/s)

模型\题目序号 1 2 3 4 5 平均速度
deepseek-r1:70b 4.58 4.25 4.53 4.48 4.29 4.43
qwen3:32b 9.36 8.65 8.89 9.42 8.54 8.97
qwen3:14b 20.04 18.77 19.71 20.40 18.42 19.47
qwen3:8b 32.02 29.22 31.20 31.79 25.42 29.93
gpt-oss:120b 30.95 29.52 29.84 32.38 31.52 30.84
gpt-oss:20b 42.69 41.02 44.03 43.40 41.69 42.57
qwen3:30b 49.81 44.00 57.66 46.79 46.38 48.93

2. LM-Studio 框架推理速度

图2. 使用lLM-Studio推理gpt-oss:120b模型测试

切换至LM-Studio后,各模型的性能表现普遍得到提升。

表2. 使用LM-Studio推理大模型的速度测试结果 (Tokens/s)

模型\题目序号 1 2 3 4 5 平均速度
deepseek-r1:70b 5.11 4.89 5.07 4.93 4.83 4.97
qwen3:32b 10.42 9.46 10.62 10.13 9.95 10.12
qwen3:14b 22.99 21.25 21.57 23.06 19.62 21.70
qwen3:8b 33.63 35.19 37.06 37.52 36.39 35.96
gpt-oss:120b 41.67 40.70 44.73 42.65 40.58 42.07
gpt-oss:20b 60.22 59.72 63.32 60.59 58.85 60.54
qwen3:30b 66.44 64.01 74.46 71.35 67.24 68.70

分析与结论

1. 推理框架对性能影响显著

对比两组数据可见,同一模型在LM-Studio中的推理速度普遍优于Ollama。例如,qwen3:30b 模型在Ollama下的平均速度为 48.93 Tokens/s,而在LM-Studio下则跃升至 68.70 Tokens/s,性能提升显著。这表明软件优化是发挥硬件潜能的关键。

2. 大参数模型展现出乎意料的可用性

传统观念认为超大参数模型难以在消费级硬件上运行。然而,gpt-oss:120b 在这台迷你主机上依然能达到 42 Tokens/s 以上的流畅表现,证明了AMD AI Max+ 395 CPU在处理超大模型时具备相当的实用价值。

3. 中等规模模型实现性能与效率的最佳平衡

qwen3:30b 在本次测试中脱颖而出,它在速度和模型能力之间取得了极佳的平衡,尤其适合需要快速响应且任务多样化的AI应用场景。

4. CPU架构天然适配MoE模型

AMD AI Max+ 395 CPU采用CPU/GPU共享内存的统一内存架构(UMA),这种设计天然适合运行混合专家(MoE)模型(如gpt-oss系列、qwen3:30b)。MoE模型虽然总参数量庞大,但每次推理仅激活部分"专家"参数,非常契合这种大容量内存但绝对算力相对有限的硬件。相比之下,对于参数密集的传统稠密模型(如deepseek-r1:70bqwen3:32b),由于需要更高的绝对算力,该处理器的集成显卡则稍显吃力。

5. AMD AI Max+ 395 CPU性能亮眼

与以往的主流移动平台相比,这款CPU在本地AI推理性能上实现了质的飞跃,为边缘计算、离线AI应用等场景提供了强有力的硬件新选择。

对DFRobot社区的启示

DFRobot作为在单板计算机(SBC)、AI边缘计算和开源硬件领域的创新者,此次测试结果意义非凡。若未来DFRobot推出基于AMD AI Max+ 395 CPU的单板计算机,将其强大的本地AI推理能力与DFRobot成熟的模块化传感器生态(如Gravity系列)相结合,将催生出更多实时、智能的物联网与机器人应用:

  • AI教育领域: 学生可以直接在教室的SBC上运行大语言模型,实现交互式、沉浸式的编程与AI学习体验。
  • 机器人项目: 赋予机器人本地化的自然语言理解与决策能力,摆脱对云端服务的依赖,响应更迅速。
  • 智慧农业与环境监测: 结合传感器数据,利用本地AI模型进行即时分析和预警,实现对现场环境的快速响应。

总结

本次基于零刻GTR9迷你主机的评测充分展示了 AMD AI Max+ 395 CPU 在本地大模型推理方面的强劲性能与广阔应用前景。对于DFRobot社区的用户和开发者而言,这意味着一个激动人心的可能性:未来将有机会在DFRobot的单板计算机上,享受到媲美桌面级PC的本地AI推理体验。

如果你期待在DFRobot的硬件平台上探索大模型的无限可能,敬请持续关注官方的产品动态与社区讨论。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐