什么是LMArena?
LMArena(原名Chatbot Arena)是由LMSYS组织创建的开放式AI模型评测平台。LMArena的核心特色在于采用"盲测对决"机制——用户向两个匿名模型提问,根据回答质量投票选择胜者。这种评测方式消除了偏见,确保LMArena排行榜真实反映各AI模型的实际表现。
LMArena的评测原理
LMArena使用ELO评分系统对AI模型进行排名。当用户在LMArena平台上完成一次盲测投票后,系统会根据对决结果调整双方模型的分数。经过数百万次投票,LMArena能够精确衡量每个模型的综合能力。
LMArena评测的公正性保障
LMArena采用匿名对决,用户投票前不知道模型身份,避免品牌偏见。同时LMArena平台开放透明,所有评测数据公开可查,研究者可自由分析验证结果。
LMArena九大AI排行榜
LMArena提供全方位的AI模型评测,涵盖文本、视觉、图像、视频等多个维度。以下是LMArena各排行榜的最新排名(2025年11月更新):
LMArena文本排行榜
- 1Gemini-3-Pro1491
- 2Grok-4.1-Thinking1481
- 3Claude-Opus-4.5-Thinking1471
- 4Grok-4.11463
- 5Claude-Opus-4.51462
- 6GPT-5.1-High1457
- 7Gemini-2.5-Pro1451
- 8Claude-Sonnet-4.5-Thinking1448
- 9Claude-Opus-4.1-Thinking1448
- 10Claude-Sonnet-4.51445
- 11GPT-4.5-Preview1443
- 12Claude-Opus-4.11441
- 13ChatGPT-4o-Latest1440
- 14GPT-5-High1437
- 15GPT-5.11436
- 16O3-20251434
- 17Qwen3-Max-Preview1433
- 18Kimi-K2-Thinking-Turbo1428
- 19Grok-4.1-Fast-Reasoning1427
- 20GLM-4.61426
LMArena视觉排行榜
- 1Gemini-3-Pro1314
- 2Gemini-2.5-Pro1249
- 3GPT-5.1-High1248
- 4GPT-5.11246
- 5ChatGPT-4o-Latest1237
- 6GPT-4.5-Preview1226
- 7Gemini-2.5-Flash-Preview1226
- 8GPT-5-Chat1222
- 9O3-20251218
- 10GPT-4.11216
- 11Gemini-2.5-Flash1215
- 12Claude-Opus-4-Thinking1210
- 13GPT-5-High1209
- 14Qwen3-VL-235B-A22B1206
- 15Claude-Sonnet-4-Thinking1205
- 16GPT-4.1-Mini1202
- 17O4-Mini1202
- 18ERNIE-5.0-Preview1199
- 19Claude-3.7-Sonnet-Thinking1196
- 20Hunyuan-Vision-1.5-Thinking1194
LMArena网页开发排行榜
- 1Claude-Opus-4.5-Thinking1511
- 2Gemini-3-Pro1476
- 3Claude-Opus-4.51472
- 4GPT-5-Medium1399
- 5Claude-Sonnet-4.5-Thinking1398
- 6GPT-5.1-Medium1395
- 7Claude-Opus-4.11392
- 8Claude-Sonnet-4.51387
- 9GLM-4.61366
- 10GPT-5.11354
- 11Kimi-K2-Thinking-Turbo1350
- 12GPT-5.1-Codex1341
- 13MiniMax-M21316
- 14DeepSeek-V3.2-Exp1293
- 15Qwen3-Coder-480B-A35B1289
- 16Claude-Haiku-4.51285
- 17KAT-Coder-Pro-V11264
- 18GPT-5.1-Codex-Mini1252
- 19Grok-4.1-Fast-Reasoning1229
- 20Gemini-2.5-Pro1213
LMArena文生图排行榜
- 1Gemini-3-Pro-Image-2K1234
- 2Gemini-3-Pro-Image1231
- 3Flux-2-Flex1157
- 4Gemini-2.5-Flash-Image1156
- 5Hunyuan-Image-3.01154
- 6Flux-2-Pro1146
- 7Seedream-4.51146
- 8Imagen-4.0-Ultra1145
- 9Seedream-4-2K1144
- 10Imagen-4.01131
- 11Seedream-4-High-Res1124
- 12Wan2.5-T2I-Preview1123
- 13GPT-Image-11119
- 14Seedream-4-Fal1118
- 15GPT-Image-1-Mini1100
- 16MAI-Image-11091
- 17Seedream-31084
- 18Flux-1-Kontext-Max1078
- 19Qwen-Image-Extend1067
- 20Flux-1-Kontext-Pro1064
LMArena图像编辑排行榜
- 1Gemini-3-Pro-Image-2K1405
- 2Gemini-3-Pro-Image1394
- 3Seedream-4.51338
- 4Gemini-2.5-Flash-Image1323
- 5Seedream-4-2K1311
- 6Seedream-4-High-Res1249
- 7Reve-V11242
- 8Flux-2-Pro1240
- 9Flux-2-Flex1229
- 10Seedream-4-Fal1212
- 11Qwen-Image-Edit1208
- 12Reve-Edit-Fast1206
- 13Flux-1-Kontext-Max1193
- 14Flux-1-Kontext-Pro1185
- 15Flux-1-Kontext-Dev1160
- 16GPT-Image-11153
- 17SeedEdit-3.01149
- 18GPT-Image-1-Mini1132
- 19Gemini-2.0-Flash-Image1092
- 20Bagel1036
LMArena搜索排行榜
- 1Gemini-3-Pro-Grounding1210
- 2GPT-5.1-Search1201
- 3Grok-4-Fast-Search1164
- 4Gemini-2.5-Pro-Grounding1142
- 5O3-Search1139
- 6Grok-4-Search1138
- 7Perplexity-Sonar-Reasoning-Pro1138
- 8Claude-Opus-4.1-Search1130
- 9GPT-5-Search1130
- 10Claude-Opus-4-Search1129
- 11Perplexity-Sonar-Pro-High1125
- 12Diffbot-Small-XL1020
- 13API-GPT-4o-Search1008
LMArena文生视频排行榜
- 1Veo-3.1-Fast-Audio1386
- 2Veo-3.1-Audio1375
- 3Veo-3-Fast-Audio1364
- 4Sora-2-Pro1362
- 5Veo-3-Audio1346
- 6Sora-21325
- 7Wan2.5-T2V-Preview1305
- 8Veo-31257
- 9Veo-3-Fast1252
- 10Kling-2.5-Turbo-1080P1222
- 11Ray-31207
- 12Hailuo-2.31205
- 13Hailuo-02-Pro1195
- 14Seedance-V1-Pro1187
- 15Hailuo-02-Standard1181
- 16Kling-V2.1-Master1171
- 17Veo-21163
- 18Wan-V2.2-A14B1126
- 19Seedance-V1-Lite1118
- 20Sora1066
LMArena图生视频排行榜
- 1Veo-3.1-Audio1396
- 2Veo-3.1-Fast-Audio1395
- 3Wan2.5-I2V-Preview1341
- 4Veo-3-Audio1333
- 5Veo-3-Fast-Audio1329
- 6Kling-2.5-Turbo-1080P1277
- 7Seedance-V1-Pro1275
- 8Vidu-Q2-Turbo1253
- 9Veo-31247
- 10Veo-3-Fast1241
- 11Hailuo-2.31239
- 12Kling-V2.1-Master1237
- 13Hailuo-02-Pro1237
- 14Ray-31229
- 15Hailuo-02-Standard1228
- 16Vidu-Q2-Pro1227
- 17Kling-V2.1-Standard1226
- 18Hailuo-02-Fast1197
- 19Seedance-V1-Lite1186
- 20Wan-V2.2-A14B1169
LMArena综合排行榜
- 1Gemini-3-Pro综合第一
- 2Grok-4.1-Thinking综合第二
- 3Claude-Opus-4.5综合第三
- 4Claude-Opus-4.5-ThinkingTOP 5
- 5GPT-5.1-HighTOP 5
- 6Grok-4.1TOP 10
- 7Claude-Sonnet-4.5-ThinkingTOP 10
- 8Gemini-2.5-ProTOP 10
- 9Claude-Opus-4.1-ThinkingTOP 10
- 10Claude-Sonnet-4.5TOP 10
- 11Claude-Opus-4.1TOP 15
- 12GPT-4.5-PreviewTOP 15
- 13GPT-5.1TOP 15
- 14ChatGPT-4o-LatestTOP 15
- 15GPT-5-HighTOP 15
- 16Kimi-K2-Thinking-TurboTOP 20
- 17O3-2025TOP 20
- 18Qwen3-Max-PreviewTOP 20
- 19Grok-4.1-Fast-ReasoningTOP 20
- 20DeepSeek-V3.2-ExpTOP 20
为什么选择LMArena?
LMArena已成为AI研究者、开发者和企业选择AI模型的首选参考平台。以下是LMArena的核心优势:
盲测机制确保公正
LMArena的盲测设计让用户在不知道模型身份的情况下进行评价,杜绝品牌效应带来的偏见,真正评估AI能力。
海量真实数据
LMArena已累积超过460万次文本评测投票,覆盖276个模型。庞大的数据量保证了LMArena排名的统计可靠性。
多维度评测
LMArena提供九大排行榜,包括文本对话、视觉理解、网页开发、图像生成、图像编辑、搜索、文生视频和图生视频,全面评估AI能力。
开放透明
LMArena所有评测数据公开可查,研究者可自由下载分析。LMArena的开放性赢得了学术界和产业界的广泛信任。
镜像服务
银河录像局是一家专注于AI工具服务的领先平台,提供Gemini、ChatGPT、Claude、Grok等主流AI工具的镜像访问服务,无需国际网络环境,国内直连,稳定快速。我们的镜像服务采用高速CDN加速,确保您获得与官方网站一致的流畅体验。
LMArena使用指南
如何在LMArena参与评测
访问LMArena官网后,您可以选择感兴趣的评测领域。在LMArena的对话界面中输入问题,系统会同时向两个匿名模型发送请求。阅读两个回答后,选择您认为更好的一方进行投票。投票完成后LMArena会揭示模型身份。
LMArena评分系统解读
LMArena使用ELO评分系统,初始分数为1000分。当模型战胜对手时获得积分,失败则扣分。分数越高代表在LMArena平台上的表现越优秀。目前顶级模型的LMArena评分普遍在1400-1500分区间。
LMArena对行业的影响
LMArena的排名已成为AI行业的风向标。各大AI公司将LMArena排名作为产品发布的重要宣传点,研究论文也常引用LMArena数据作为性能基准。可以说,LMArena正在重新定义AI模型的评价标准。