登顶!目前大模型竞技排行榜!(5月13日更新)
lmarena.aiChatbot Arena大模型竞技场,开放且免费的AI测评网lmarena.ai。
前言
数据来源
Chatbot Arena大模型竞技场,开放且免费的AI测评网lmarena.ai
排序方式
- 每次提问时,向随机两个匿名人工智能机器人(如ChatGPT,Gemini,Claude,Liama等)
- 通过投票选出最佳答案,或者暂时不投票,继续聊天,直到找到获胜者。
- 公平游戏:如果你是AI,则你的投票不会被计数
截止5月5日目前收录

截止3月19日目前收录
- 216个模型
- 270w+投票
排名(5月13日)
|
排名(不进行提示) |
排名(进行提示) |
模型名称 |
竞技场得分 |
95%置信区间 |
投票数 |
来源组织 |
许可证 |
|
1 |
1 |
1448 |
+7/-12 |
3545 |
|
Proprietary |
|
|
2 |
1 |
1411 |
+11/-7 |
5844 |
OpenAI |
Proprietary |
|
|
2 |
2 |
1408 |
+6/-5 |
10286 |
OpenAI |
Proprietary |
|
|
2 |
5 |
1402 |
+5/-4 |
14843 |
xAI |
Proprietary |
|
|
4 |
3 |
1398 |
+4/-5 |
15281 |
OpenAI |
Proprietary |
|
|
4 |
5 |
1394 |
+9/-8 |
5393 |
|
Proprietary |
|
|
7 |
6 |
1372 |
+6/-6 |
8213 |
DeepSeek |
MIT |
|
|
7 |
5 |
1367 |
+6/-8 |
4523 |
OpenAI |
Proprietary |
|
|
8 |
7 |
1359 |
+4/-3 |
18034 |
DeepSeek |
MIT |
|
|
8 |
5 |
1351 |
+9/-8 |
4526 |
OpenAI |
Proprietary |
排名(4月17日)
|
排名(不进行提示) |
排名(进行提示) |
模型名称 |
竞技场得分 |
95%置信区间 |
投票数 |
来源组织 |
许可证 |
|
1 |
1 |
1437 |
+8/-6 |
7431 |
|
专有 |
|
|
2 |
2 |
1406 |
+7/-8 |
6612 |
OpenAI |
专有 |
|
|
2 |
4 |
1402 |
+5/-5 |
13919 |
xAI |
专有 |
|
|
2 |
2 |
1397 |
+5/-6 |
13443 |
OpenAI |
专有 |
|
|
5 |
8 |
1380 |
+5/-4 |
25266 |
|
专有 |
|
|
5 |
4 |
1380 |
+4/-5 |
20136 |
|
专有 |
|
|
5 |
4 |
1370 |
+7/-7 |
4721 |
DeepSeek |
开源 |
|
|
7 |
5 |
1359 |
+5/-5 |
15098 |
DeepSeek |
开源 |
|
|
8 |
13 |
1354 |
+4/-4 |
21065 |
|
专有 |
|
|
8 |
4 |
1350 |
+4/-5 |
27831 |
OpenAI |
专有 |
排名(3月31日)
|
排名(不进行提示) |
排名(进行提示) |
模型名称 |
竞技场得分 |
95%置信区间 |
投票数 |
来源组织 |
许可证 |
|
1 |
1 |
1443 |
+11/-8 |
3474 |
|
专有 |
|
|
2 |
2 |
1408 |
+11/-12 |
2676 |
OpenAI |
专有 |
|
|
2 |
4 |
1404 |
+6/-6 |
10397 |
xAI |
专有 |
|
|
2 |
2 |
1398 |
+6/-7 |
10907 |
OpenAI |
专有 |
|
|
5 |
7 |
1381 |
+4/-5 |
22987 |
|
专有 |
|
|
5 |
4 |
1380 |
+5/-4 |
20289 |
|
专有 |
|
|
7 |
5 |
1360 |
+5/-4 |
13074 |
DeepSeek |
开源 |
|
|
7 |
12 |
1355 |
+6/-4 |
18650 |
|
专有 |
|
|
7 |
4 |
1351 |
+5/-4 |
25363 |
OpenAI |
专有 |
|
|
10 |
12 |
1340 |
+5/-5 |
17452 |
Alibaba |
专有 |
|
|
10 |
12 |
1339 |
+7/-5 |
7238 |
|
Gemma |
|
|
10 |
9 |
1335 |
+4/-3 |
33188 |
OpenAI |
专有 |
排名(3月19日)
|
排名(不进行提示) |
排名(进行提示) |
模型名称 |
竞技场得分 |
95%置信区间 |
投票数 |
来源组织 |
许可证 |
|
1 |
2 |
1406 |
+8/-6 |
9109 |
xAI |
专有 |
|
|
1 |
1 |
1400 |
+5/-6 |
8596 |
OpenAI |
专有 |
|
|
3 |
6 |
1383 |
+6/-4 |
21124 |
|
专有 |
|
|
3 |
3 |
1380 |
+4/-4 |
19038 |
|
专有 |
|
|
3 |
2 |
1375 |
+6/-4 |
20936 |
OpenAI |
专有 |
|
|
6 |
4 |
1360 |
+7/-5 |
11507 |
DeepSeek |
开源 |
|
|
6 |
10 |
1355 |
+4/-5 |
16845 |
|
专有 |
|
|
6 |
3 |
1352 |
+4/-6 |
23441 |
OpenAI |
专有 |
|
|
9 |
10 |
1340 |
+8/-8 |
5028 |
|
Google 自己的许可协议 |
|
|
9 |
10 |
1339 |
+4/-5 |
15607 |
Alibaba |
专有 |
此处仅摘录前十名,具体请参考官方网站
名词解释:
- 排名(不进行提示)即Rank(UB):这是模型在不考虑特定风格控制(style control)的情况下,基于其在各种任务中的表现所确定的排名。它反映了模型在不同任务上的综合表现,不涉及对风格的调整。
- 排名(进行提示)即Rank(stylectrl):这是模型在考虑“风格控制”时的排名。风格控制指的是模型根据提示调整其回复的能力,例如语调、正式程度等。它衡量的是模型在特定风格要求下的表现。
- 95%置信区间 即 95%CI:统计学中常用的一个概念,用于估计总体参数(如均值、比例等)的范围。具体来说,95% 置信区间意味着如果我们多次重复相同的抽样和统计过程,那么在这些构造的区间中,大约有 95% 的区间会包含真实的总体参数值。95% CI 的形式是“+7/-7”、“+7/-9”等,这表示置信区间的上下限相对于某个中心值的变化范围。例如:
- “+7/-7” 表示置信区间的范围是从中心值减去 7 到中心值加上 7。
- “+7/-9” 表示置信区间的范围是从中心值减去 9 到中心值加上 7。
这些区间反映了估计值的不确定性。区间越宽,说明估计的不确定性越大;区间越窄,说明估计越精确。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)