登顶！目前大模型竞技排行榜！（5月13日更新）

° 安如少年初如梦662

4400人浏览 · 2025-03-19 14:52:17

° 安如少年初如梦662 · 2025-03-19 14:52:17 发布

前言

数据来源

lmarena.ai

Chatbot Arena大模型竞技场，开放且免费的AI测评网lmarena.ai

排序方式

每次提问时，向随机两个匿名人工智能机器人（如ChatGPT，Gemini，Claude，Liama等）
通过投票选出最佳答案，或者暂时不投票，继续聊天，直到找到获胜者。
公平游戏：如果你是AI，则你的投票不会被计数

截止5月5日目前收录

截止3月19日目前收录

216个模型
270w+投票

排名(5月13日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Preview-05-06	1448	+7/-12	3545	Google	Proprietary
2	1	o3-2025-04-16	1411	+11/-7	5844	OpenAI	Proprietary
2	2	ChatGPT-4o-latest (2025-03-26)	1408	+6/-5	10286	OpenAI	Proprietary
2	5	Grok-3-Preview-02-24	1402	+5/-4	14843	xAI	Proprietary
4	3	GPT-4.5-Preview	1398	+4/-5	15281	OpenAI	Proprietary
4	5	Gemini-2.5-Flash-Preview-04-17	1394	+9/-8	5393	Google	Proprietary
7	6	DeepSeek-V3-0324	1372	+6/-6	8213	DeepSeek	MIT
7	5	GPT-4.1-2025-04-14	1367	+6/-8	4523	OpenAI	Proprietary
8	7	DeepSeek-R1	1359	+4/-3	18034	DeepSeek	MIT
8	5	o4-mini-2025-04-16	1351	+9/-8	4526	OpenAI	Proprietary

排名(4月17日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Exp-03-25	1437	+8/-6	7431	Google	专有
2	2	ChatGPT-4o-latest (2025-03-26)	1406	+7/-8	6612	OpenAI	专有
2	4	Grok-3-Preview-02-24	1402	+5/-5	13919	xAI	专有
2	2	GPT-4.5-Preview	1397	+5/-6	13443	OpenAI	专有
5	8	Gemini-2.0-Flash-Thinking-Exp-01-21	1380	+5/-4	25266	Google	专有
5	4	Gemini-2.0-Pro-Exp-02-05	1380	+4/-5	20136	Google	专有
5	4	DeepSeek-V3-0324	1370	+7/-7	4721	DeepSeek	开源
7	5	DeepSeek-R1	1359	+5/-5	15098	DeepSeek	开源
8	13	Gemini-2.0-Flash-001	1354	+4/-4	21065	Google	专有
8	4	o1-2024-12-17	1350	+4/-5	27831	OpenAI	专有

排名(3月31日)

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	1	Gemini-2.5-Pro-Exp-03-25	1443	+11/-8	3474	Google	专有
2	2	ChatGPT-4o-latest (2025-03-26)	1408	+11/-12	2676	OpenAI	专有
2	4	Grok-3-Preview-02-24	1404	+6/-6	10397	xAI	专有
2	2	GPT-4.5-Preview	1398	+6/-7	10907	OpenAI	专有
5	7	Gemini-2.0-Flash-Thinking-Exp-01-21	1381	+4/-5	22987	Google	专有
5	4	Gemini-2.0-Pro-Exp-02-05	1380	+5/-4	20289	Google	专有
7	5	DeepSeek-R1	1360	+5/-4	13074	DeepSeek	开源
7	12	Gemini-2.0-Flash-001	1355	+6/-4	18650	Google	专有
7	4	o1-2024-12-17	1351	+5/-4	25363	OpenAI	专有
10	12	Qwen2.5-Max	1340	+5/-5	17452	Alibaba	专有
10	12	Gemma-3-27B-it	1339	+7/-5	7238	Google	Gemma
10	9	o1-preview	1335	+4/-3	33188	OpenAI	专有

排名（3月19日）

排名（不进行提示）	排名（进行提示）	模型名称	竞技场得分	95%置信区间	投票数	来源组织	许可证
1	2	Grok-3-Preview-02-24	1406	+8/-6	9109	xAI	专有
1	1	GPT-4.5-Preview	1400	+5/-6	8596	OpenAI	专有
3	6	Gemini-2.0-Flash-Thinking-Exp-01-21	1383	+6/-4	21124	Google	专有
3	3	Gemini-2.0-Pro-Exp-02-05	1380	+4/-4	19038	Google	专有
3	2	ChatGPT-4o-latest (2025-01-29)	1375	+6/-4	20936	OpenAI	专有
6	4	DeepSeek-R1	1360	+7/-5	11507	DeepSeek	开源
6	10	Gemini-2.0-Flash-001	1355	+4/-5	16845	Google	专有
6	3	o1-2024-12-17	1352	+4/-6	23441	OpenAI	专有
9	10	Gemma-3-27B-it	1340	+8/-8	5028	Google	Google 自己的许可协议
9	10	Qwen2.5-Max	1339	+4/-5	15607	Alibaba	专有

此处仅摘录前十名，具体请参考官方网站

名词解释：

排名（不进行提示）即Rank(UB)：这是模型在不考虑特定风格控制（style control）的情况下，基于其在各种任务中的表现所确定的排名。它反映了模型在不同任务上的综合表现，不涉及对风格的调整。
排名（进行提示）即Rank(stylectrl)：这是模型在考虑“风格控制”时的排名。风格控制指的是模型根据提示调整其回复的能力，例如语调、正式程度等。它衡量的是模型在特定风格要求下的表现。
95%置信区间即 95%CI：统计学中常用的一个概念，用于估计总体参数（如均值、比例等）的范围。具体来说，95% 置信区间意味着如果我们多次重复相同的抽样和统计过程，那么在这些构造的区间中，大约有 95% 的区间会包含真实的总体参数值。95% CI 的形式是“+7/-7”、“+7/-9”等，这表示置信区间的上下限相对于某个中心值的变化范围。例如：
- “+7/-7” 表示置信区间的范围是从中心值减去 7 到中心值加上 7。
- “+7/-9” 表示置信区间的范围是从中心值减去 9 到中心值加上 7。

这些区间反映了估计值的不确定性。区间越宽，说明估计的不确定性越大；区间越窄，说明估计越精确。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模