大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?
相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于
基于同样的基座:qwen2.5-32b-base,qwen官方先后推出了常规模型qwen2.5-32b-instruct(下面简称instruct模型)和推理模型qwq-32b-preview/qwq-32b(下面简称qwq)。众所周知,推理模型擅长推理,我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型,那其他维度呢?
我们接下来通过全方位的评测一探究竟。评测包括8大领域,300多个细分维度。
qwen2.5-32b-instruct |
qwq-32b |
变化 |
|
总分 |
68.51 |
77.18 |
13% |
医疗 |
71.60 |
76.45 |
7% |
教育 |
80.02 |
85.90 |
7% |
金融 |
71.83 |
78.33 |
9% |
法律 |
50.70 |
60.80 |
20% |
行政公务 |
64.50 |
82.20 |
27% |
心理健康 |
57.75 |
63.00 |
9% |
推理与数学计算 |
70.98 |
85.58 |
21% |
语言与指令遵从 |
80.73 |
85.18 |
6% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
公众号:大模型评测EasyLLM
从上表可知:
-
相比instruct模型,qwq总分提高了13%,十分可观。
-
最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。
-
“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。
另外,我们通过对比qwq及其早期preview版本,也能得出类似以上的结论,数据如下:
qwq-32b-preview |
qwq-32b |
变化 |
|
总分 |
71.43 |
77.18 |
8% |
医疗 |
73.54 |
76.45 |
4% |
教育 |
83.38 |
85.90 |
3% |
金融 |
74.32 |
78.33 |
5% |
法律 |
53.57 |
60.80 |
13% |
行政公务 |
72.00 |
82.20 |
14% |
心理健康 |
59.88 |
63.00 |
5% |
推理与数学计算 |
75.80 |
85.58 |
13% |
语言与指令遵从 |
78.92 |
85.18 |
8% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
公众号:大模型评测EasyLLM
关于(公众号)大模型评测EasyLLM:https://easyllm.site
-
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度
-
最新——每周更新大模型排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯
-
错题本——百万级大模型错题本
-
免费——为您的私有模型提供免费的全方位评测服务,欢迎私信
公众号:大模型评测EasyLLM

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)