什么是LMArena?
LMArena(原名Chatbot Arena)是由LMSYS组织创建的开放式AI模型评测平台。LMArena的核心特色在于采用"盲测对决"机制——用户向两个匿名模型提问,根据回答质量投票选择胜者。这种评测方式消除了偏见,确保LMArena排行榜真实反映各AI模型的实际表现。
LMArena的评测原理
LMArena使用ELO评分系统对AI模型进行排名。当用户在LMArena平台上完成一次盲测投票后,系统会根据对决结果调整双方模型的分数。经过数百万次投票,LMArena能够精确衡量每个模型的综合能力。
LMArena评测的公正性保障
LMArena采用匿名对决,用户投票前不知道模型身份,避免品牌偏见。同时LMArena平台开放透明,所有评测数据公开可查,研究者可自由分析验证结果。
LMArena九大AI排行榜
LMArena提供全方位的AI模型评测,涵盖文本、视觉、图像、视频等多个维度。以下是LMArena各排行榜的最新排名(2025年11月更新):
LMArena文本排行榜
- 1Gemini-3-Pro1492
- 2Grok-4.1-Thinking1482
- 3Claude-Opus-4.51466
- 4Grok-4.11464
- 5GPT-5.1-High1461
- 6Gemini-2.5-Pro1452
- 7Claude-Sonnet-4.5-Thinking1448
- 8Claude-Opus-4.1-Thinking1448
- 9Claude-Sonnet-4.51445
- 10GPT-4.5-Preview1442
- 11Claude-Opus-4.11441
- 12ChatGPT-4o-Latest1438
- 13GPT-5-High1437
- 14GPT-5.11437
- 15O3-20251434
- 16Qwen3-Max-Preview1433
- 17Kimi-K2-Thinking-Turbo1431
- 18GLM-4.61426
- 19GPT-5-Chat1425
- 20DeepSeek-V3.2-Exp1424
LMArena视觉排行榜
- 1Gemini-3-Pro1324
- 2Gemini-2.5-Pro1249
- 3ChatGPT-4o-Latest1237
- 4GPT-4.5-Preview1226
- 5Gemini-2.5-Flash-Preview1225
- 6GPT-5-Chat1222
- 7O3-20251219
- 8GPT-4.11216
- 9Gemini-2.5-Flash1214
- 10Claude-Opus-4-Thinking1210
- 11GPT-5-High1209
- 12ERNIE-5.0-Preview1206
- 13Claude-Sonnet-4-Thinking1205
- 14Qwen3-VL-235B1203
- 15GPT-4.1-Mini1202
- 16O4-Mini1202
- 17Claude-3.7-Sonnet-Thinking1195
- 18Hunyuan-Vision-1.51193
- 19O1-20241193
- 20Qwen3-VL-Thinking1191
LMArena网页开发排行榜
- 1Claude-Opus-4.5-Thinking1493
- 2Claude-Opus-4.51479
- 3Gemini-3-Pro1473
- 4GPT-5-Medium1399
- 5Claude-Sonnet-4.5-Thinking1397
- 6GPT-5.1-Medium1395
- 7Claude-Opus-4.11393
- 8Claude-Sonnet-4.51387
- 9GLM-4.61370
- 10Kimi-K2-Thinking-Turbo1358
- 11GPT-5.11358
- 12GPT-5.1-Codex1340
- 13MiniMax-M21321
- 14DeepSeek-V3.2-Exp1294
- 15Qwen3-Coder-480B1293
- 16Claude-Haiku-4.51289
- 17GPT-5.1-Codex-Mini1253
- 18Grok-4.1-Fast-Reasoning1228
- 19Gemini-2.5-Pro1211
- 20Grok-4.1-Thinking1207
LMArena文生图排行榜
- 1Gemini-3-Pro-Image1242
- 2Hunyuan-Image-3.01161
- 3Gemini-2.5-Flash-Image1158
- 4Seedream-4-2K1144
- 5Imagen-4.0-Ultra1143
- 6Imagen-4.01130
- 7Seedream-4-High-Res1127
- 8Wan2.5-T2I-Preview1124
- 9GPT-Image-11121
- 10Seedream-4-Fal1118
- 11GPT-Image-1-Mini1099
- 12MAI-Image-11090
- 13Seedream-31084
- 14Flux-1-Kontext-Max1079
- 15Qwen-Image-Extend1070
- 16Flux-1-Kontext-Pro1067
- 17Imagen-3.01062
- 18Qwen-Image1061
- 19Ideogram-V3-Quality1047
- 20Photon1027
LMArena图像编辑排行榜
- 1Gemini-3-Pro-Image1371
- 2Gemini-2.5-Flash-Image1330
- 3Seedream-4-2K1311
- 4Seedream-4-High-Res1250
- 5Reve-V11234
- 6Seedream-4-Fal1212
- 7Qwen-Image-Edit1202
- 8Reve-Edit-Fast1201
- 9Flux-1-Kontext-Max1194
- 10Flux-1-Kontext-Pro1183
- 11Flux-1-Kontext-Dev1158
- 12GPT-Image-11156
- 13SeedEdit-3.01148
- 14GPT-Image-1-Mini1131
- 15Gemini-2.0-Flash-Image1091
- 16Bagel1036
- 17Step1X-Edit1011
LMArena搜索排行榜
- 1Grok-4-Fast-Search1166
- 2Perplexity-Sonar-Pro-High1149
- 3Gemini-2.5-Pro-Grounding1142
- 4O3-Search1142
- 5Grok-4-Search1141
- 6GPT-5-Search1132
- 7Claude-Opus-4.1-Search1132
- 8Claude-Opus-4-Search1130
- 9Perplexity-Sonar-Reasoning1127
- 10Diffbot-Small-XL1023
- 11API-GPT-4o-Search1011
LMArena文生视频排行榜
- 1Veo-3.1-Audio1382
- 2Veo-3.1-Fast-Audio1379
- 3Veo-3-Fast-Audio1366
- 4Sora-2-Pro1359
- 5Veo-3-Audio1344
- 6Sora-21321
- 7Veo-3-Fast1263
- 8Veo-31255
- 9Kling-2.5-Turbo-1080P1223
- 10Ray-31208
- 11Hailuo-2.31204
- 12Hailuo-02-Pro1195
- 13Seedance-V1-Pro1186
- 14Hailuo-02-Standard1181
- 15Kling-V2.1-Master1170
- 16Veo-21163
- 17Wan-V2.2-A14B1127
- 18Seedance-V1-Lite1114
- 19Sora1066
- 20Ray21063
LMArena图生视频排行榜
- 1Veo-3.1-Audio1396
- 2Veo-3.1-Fast-Audio1395
- 3Wan2.5-I2V-Preview1341
- 4Veo-3-Audio1333
- 5Veo-3-Fast-Audio1329
- 6Kling-2.5-Turbo-1080P1277
- 7Seedance-V1-Pro1275
- 8Vidu-Q2-Turbo1253
- 9Veo-31247
- 10Veo-3-Fast1241
- 11Hailuo-2.31239
- 12Kling-V2.1-Master1237
- 13Hailuo-02-Pro1237
- 14Ray-31229
- 15Hailuo-02-Standard1228
- 16Vidu-Q2-Pro1227
- 17Kling-V2.1-Standard1226
- 18Hailuo-02-Fast1197
- 19Seedance-V1-Lite1186
- 20Wan-V2.2-A14B1169
LMArena综合排行榜
- 1Gemini-3-Pro综合第一
- 2Grok-4.1-Thinking综合第二
- 3Claude-Opus-4.5综合第三
- 4Claude-Opus-4.5-ThinkingTOP 5
- 5GPT-5.1-HighTOP 5
- 6Grok-4.1TOP 10
- 7Claude-Sonnet-4.5-ThinkingTOP 10
- 8Gemini-2.5-ProTOP 10
- 9Claude-Opus-4.1-ThinkingTOP 10
- 10Claude-Sonnet-4.5TOP 10
- 11Claude-Opus-4.1TOP 15
- 12GPT-4.5-PreviewTOP 15
- 13GPT-5.1TOP 15
- 14ChatGPT-4o-LatestTOP 15
- 15GPT-5-HighTOP 15
- 16Kimi-K2-Thinking-TurboTOP 20
- 17O3-2025TOP 20
- 18Qwen3-Max-PreviewTOP 20
- 19Grok-4.1-Fast-ReasoningTOP 20
- 20DeepSeek-V3.2-ExpTOP 20
为什么选择LMArena?
LMArena已成为AI研究者、开发者和企业选择AI模型的首选参考平台。以下是LMArena的核心优势:
盲测机制确保公正
LMArena的盲测设计让用户在不知道模型身份的情况下进行评价,杜绝品牌效应带来的偏见,真正评估AI能力。
海量真实数据
LMArena已累积超过460万次文本评测投票,覆盖276个模型。庞大的数据量保证了LMArena排名的统计可靠性。
多维度评测
LMArena提供九大排行榜,包括文本对话、视觉理解、网页开发、图像生成、图像编辑、搜索、文生视频和图生视频,全面评估AI能力。
开放透明
LMArena所有评测数据公开可查,研究者可自由下载分析。LMArena的开放性赢得了学术界和产业界的广泛信任。
LMArena使用指南
如何在LMArena参与评测
访问LMArena官网后,您可以选择感兴趣的评测领域。在LMArena的对话界面中输入问题,系统会同时向两个匿名模型发送请求。阅读两个回答后,选择您认为更好的一方进行投票。投票完成后LMArena会揭示模型身份。
LMArena评分系统解读
LMArena使用ELO评分系统,初始分数为1000分。当模型战胜对手时获得积分,失败则扣分。分数越高代表在LMArena平台上的表现越优秀。目前顶级模型的LMArena评分普遍在1400-1500分区间。
LMArena对行业的影响
LMArena的排名已成为AI行业的风向标。各大AI公司将LMArena排名作为产品发布的重要宣传点,研究论文也常引用LMArena数据作为性能基准。可以说,LMArena正在重新定义AI模型的评价标准。