基于同样的基座:qwen2.5-32b-base,qwen官方先后推出了常规模型qwen2.5-32b-instruct(下面简称instruct模型)和推理模型qwq-32b-preview/qwq-32b(下面简称qwq)。众所周知,推理模型擅长推理,我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型,那其他维度呢?

我们接下来通过全方位的评测一探究竟。评测包括8大领域,300多个细分维度。

qwen2.5-32b-instruct

qwq-32b

变化

总分

68.51

77.18

13%

医疗

71.60

76.45

7%

教育

80.02

85.90

7%

金融

71.83

78.33

9%

法律

50.70

60.80

20%

行政公务

64.50

82.20

27%

心理健康

57.75

63.00

9%

推理与数学计算

70.98

85.58

21%

语言与指令遵从

80.73

85.18

6%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

公众号:大模型评测EasyLLM

从上表可知:

  • 相比instruct模型,qwq总分提高了13%,十分可观。

  • 最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。

  • “推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。

另外,我们通过对比qwq及其早期preview版本,也能得出类似以上的结论,数据如下:

qwq-32b-preview

qwq-32b

变化

总分

71.43

77.18

8%

医疗

73.54

76.45

4%

教育

83.38

85.90

3%

金融

74.32

78.33

5%

法律

53.57

60.80

13%

行政公务

72.00

82.20

14%

心理健康

59.88

63.00

5%

推理与数学计算

75.80

85.58

13%

语言与指令遵从

78.92

85.18

8%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

公众号:大模型评测EasyLLM


关于(公众号)大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型错题本

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

公众号:大模型评测EasyLLM

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐