大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

相比instruct模型，qwq总分提高了13%，十分可观。最突出的改进，除了“推理与数学计算”提升21%外，“法律”及“行政公务”都有大幅提高，分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中，然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现，医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度，而法律/行政公务（特别是后者的行测题）更依赖于

easyllm

1855人浏览 · 2025-04-11 11:21:03

easyllm · 2025-04-11 11:21:03 发布

基于同样的基座：qwen2.5-32b-base，qwen官方先后推出了常规模型qwen2.5-32b-instruct（下面简称instruct模型）和推理模型qwq-32b-preview/qwq-32b（下面简称qwq）。众所周知，推理模型擅长推理，我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型，那其他维度呢？

我们接下来通过全方位的评测一探究竟。评测包括8大领域，300多个细分维度。

	qwen2.5-32b-instruct	qwq-32b	变化
总分	68.51	77.18	13%
医疗	71.60	76.45	7%
教育	80.02	85.90	7%
金融	71.83	78.33	9%
法律	50.70	60.80	20%
行政公务	64.50	82.20	27%
心理健康	57.75	63.00	9%
推理与数学计算	70.98	85.58	21%
语言与指令遵从	80.73	85.18	6%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

公众号：大模型评测EasyLLM

从上表可知：

相比instruct模型，qwq总分提高了13%，十分可观。
最突出的改进，除了“推理与数学计算”提升21%外，“法律”及“行政公务”都有大幅提高，分别达到20%、27%。
“推理与数学计算”方面的改进在我们预料之中，然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现，医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度，而法律/行政公务（特别是后者的行测题）更依赖于逻辑推理能力。

另外，我们通过对比qwq及其早期preview版本，也能得出类似以上的结论，数据如下：

	qwq-32b-preview	qwq-32b	变化
总分	71.43	77.18	8%
医疗	73.54	76.45	4%
教育	83.38	85.90	3%
金融	74.32	78.33	5%
法律	53.57	60.80	13%
行政公务	72.00	82.20	14%
心理健康	59.88	63.00	5%
推理与数学计算	75.80	85.58	13%
语言与指令遵从	78.92	85.18	8%