实时盲测 全球9大排行榜

LMArena - 全球AI大模型权威排行榜

LMArena是全球最具公信力的AI模型评测平台。通过真实用户盲测投票机制,LMArena为您呈现GPT、Claude、Gemini等顶级大语言模型的真实性能排名,涵盖文本对话、视觉理解、图像生成等9大领域。

4,600,000+
累计盲测投票
276+
参与评测模型
9
核心评测领域

LMArena Data Pulse

Top 1 Gemini-3-Pro
文本榜
1324 视觉ELO
最新
1493 WebDev高分
Opus-4.5
盲测公平 公开数据 跨模态

什么是LMArena?

LMArena(原名Chatbot Arena)是由LMSYS组织创建的开放式AI模型评测平台。LMArena的核心特色在于采用"盲测对决"机制——用户向两个匿名模型提问,根据回答质量投票选择胜者。这种评测方式消除了偏见,确保LMArena排行榜真实反映各AI模型的实际表现。

LMArena的评测原理

LMArena使用ELO评分系统对AI模型进行排名。当用户在LMArena平台上完成一次盲测投票后,系统会根据对决结果调整双方模型的分数。经过数百万次投票,LMArena能够精确衡量每个模型的综合能力。

LMArena评测的公正性保障

LMArena采用匿名对决,用户投票前不知道模型身份,避免品牌偏见。同时LMArena平台开放透明,所有评测数据公开可查,研究者可自由分析验证结果。

LMArena九大AI排行榜

LMArena提供全方位的AI模型评测,涵盖文本、视觉、图像、视频等多个维度。以下是LMArena各排行榜的最新排名(2025年11月更新):

💬

LMArena文本排行榜

  • 1Gemini-3-Pro1491
  • 2Grok-4.1-Thinking1481
  • 3Claude-Opus-4.5-Thinking1471
  • 4Grok-4.11463
  • 5Claude-Opus-4.51462
  • 6GPT-5.1-High1457
  • 7Gemini-2.5-Pro1451
  • 8Claude-Sonnet-4.5-Thinking1448
  • 9Claude-Opus-4.1-Thinking1448
  • 10Claude-Sonnet-4.51445
  • 11GPT-4.5-Preview1443
  • 12Claude-Opus-4.11441
  • 13ChatGPT-4o-Latest1440
  • 14GPT-5-High1437
  • 15GPT-5.11436
  • 16O3-20251434
  • 17Qwen3-Max-Preview1433
  • 18Kimi-K2-Thinking-Turbo1428
  • 19Grok-4.1-Fast-Reasoning1427
  • 20GLM-4.61426
👁️

LMArena视觉排行榜

  • 1Gemini-3-Pro1314
  • 2Gemini-2.5-Pro1249
  • 3GPT-5.1-High1248
  • 4GPT-5.11246
  • 5ChatGPT-4o-Latest1237
  • 6GPT-4.5-Preview1226
  • 7Gemini-2.5-Flash-Preview1226
  • 8GPT-5-Chat1222
  • 9O3-20251218
  • 10GPT-4.11216
  • 11Gemini-2.5-Flash1215
  • 12Claude-Opus-4-Thinking1210
  • 13GPT-5-High1209
  • 14Qwen3-VL-235B-A22B1206
  • 15Claude-Sonnet-4-Thinking1205
  • 16GPT-4.1-Mini1202
  • 17O4-Mini1202
  • 18ERNIE-5.0-Preview1199
  • 19Claude-3.7-Sonnet-Thinking1196
  • 20Hunyuan-Vision-1.5-Thinking1194
💻

LMArena网页开发排行榜

  • 1Claude-Opus-4.5-Thinking1511
  • 2Gemini-3-Pro1476
  • 3Claude-Opus-4.51472
  • 4GPT-5-Medium1399
  • 5Claude-Sonnet-4.5-Thinking1398
  • 6GPT-5.1-Medium1395
  • 7Claude-Opus-4.11392
  • 8Claude-Sonnet-4.51387
  • 9GLM-4.61366
  • 10GPT-5.11354
  • 11Kimi-K2-Thinking-Turbo1350
  • 12GPT-5.1-Codex1341
  • 13MiniMax-M21316
  • 14DeepSeek-V3.2-Exp1293
  • 15Qwen3-Coder-480B-A35B1289
  • 16Claude-Haiku-4.51285
  • 17KAT-Coder-Pro-V11264
  • 18GPT-5.1-Codex-Mini1252
  • 19Grok-4.1-Fast-Reasoning1229
  • 20Gemini-2.5-Pro1213
🎨

LMArena文生图排行榜

  • 1Gemini-3-Pro-Image-2K1234
  • 2Gemini-3-Pro-Image1231
  • 3Flux-2-Flex1157
  • 4Gemini-2.5-Flash-Image1156
  • 5Hunyuan-Image-3.01154
  • 6Flux-2-Pro1146
  • 7Seedream-4.51146
  • 8Imagen-4.0-Ultra1145
  • 9Seedream-4-2K1144
  • 10Imagen-4.01131
  • 11Seedream-4-High-Res1124
  • 12Wan2.5-T2I-Preview1123
  • 13GPT-Image-11119
  • 14Seedream-4-Fal1118
  • 15GPT-Image-1-Mini1100
  • 16MAI-Image-11091
  • 17Seedream-31084
  • 18Flux-1-Kontext-Max1078
  • 19Qwen-Image-Extend1067
  • 20Flux-1-Kontext-Pro1064
✏️

LMArena图像编辑排行榜

  • 1Gemini-3-Pro-Image-2K1405
  • 2Gemini-3-Pro-Image1394
  • 3Seedream-4.51338
  • 4Gemini-2.5-Flash-Image1323
  • 5Seedream-4-2K1311
  • 6Seedream-4-High-Res1249
  • 7Reve-V11242
  • 8Flux-2-Pro1240
  • 9Flux-2-Flex1229
  • 10Seedream-4-Fal1212
  • 11Qwen-Image-Edit1208
  • 12Reve-Edit-Fast1206
  • 13Flux-1-Kontext-Max1193
  • 14Flux-1-Kontext-Pro1185
  • 15Flux-1-Kontext-Dev1160
  • 16GPT-Image-11153
  • 17SeedEdit-3.01149
  • 18GPT-Image-1-Mini1132
  • 19Gemini-2.0-Flash-Image1092
  • 20Bagel1036
🔍

LMArena搜索排行榜

  • 1Gemini-3-Pro-Grounding1210
  • 2GPT-5.1-Search1201
  • 3Grok-4-Fast-Search1164
  • 4Gemini-2.5-Pro-Grounding1142
  • 5O3-Search1139
  • 6Grok-4-Search1138
  • 7Perplexity-Sonar-Reasoning-Pro1138
  • 8Claude-Opus-4.1-Search1130
  • 9GPT-5-Search1130
  • 10Claude-Opus-4-Search1129
  • 11Perplexity-Sonar-Pro-High1125
  • 12Diffbot-Small-XL1020
  • 13API-GPT-4o-Search1008
🎬

LMArena文生视频排行榜

  • 1Veo-3.1-Fast-Audio1386
  • 2Veo-3.1-Audio1375
  • 3Veo-3-Fast-Audio1364
  • 4Sora-2-Pro1362
  • 5Veo-3-Audio1346
  • 6Sora-21325
  • 7Wan2.5-T2V-Preview1305
  • 8Veo-31257
  • 9Veo-3-Fast1252
  • 10Kling-2.5-Turbo-1080P1222
  • 11Ray-31207
  • 12Hailuo-2.31205
  • 13Hailuo-02-Pro1195
  • 14Seedance-V1-Pro1187
  • 15Hailuo-02-Standard1181
  • 16Kling-V2.1-Master1171
  • 17Veo-21163
  • 18Wan-V2.2-A14B1126
  • 19Seedance-V1-Lite1118
  • 20Sora1066
📽️

LMArena图生视频排行榜

  • 1Veo-3.1-Audio1396
  • 2Veo-3.1-Fast-Audio1395
  • 3Wan2.5-I2V-Preview1341
  • 4Veo-3-Audio1333
  • 5Veo-3-Fast-Audio1329
  • 6Kling-2.5-Turbo-1080P1277
  • 7Seedance-V1-Pro1275
  • 8Vidu-Q2-Turbo1253
  • 9Veo-31247
  • 10Veo-3-Fast1241
  • 11Hailuo-2.31239
  • 12Kling-V2.1-Master1237
  • 13Hailuo-02-Pro1237
  • 14Ray-31229
  • 15Hailuo-02-Standard1228
  • 16Vidu-Q2-Pro1227
  • 17Kling-V2.1-Standard1226
  • 18Hailuo-02-Fast1197
  • 19Seedance-V1-Lite1186
  • 20Wan-V2.2-A14B1169
🏆

LMArena综合排行榜

  • 1Gemini-3-Pro综合第一
  • 2Grok-4.1-Thinking综合第二
  • 3Claude-Opus-4.5综合第三
  • 4Claude-Opus-4.5-ThinkingTOP 5
  • 5GPT-5.1-HighTOP 5
  • 6Grok-4.1TOP 10
  • 7Claude-Sonnet-4.5-ThinkingTOP 10
  • 8Gemini-2.5-ProTOP 10
  • 9Claude-Opus-4.1-ThinkingTOP 10
  • 10Claude-Sonnet-4.5TOP 10
  • 11Claude-Opus-4.1TOP 15
  • 12GPT-4.5-PreviewTOP 15
  • 13GPT-5.1TOP 15
  • 14ChatGPT-4o-LatestTOP 15
  • 15GPT-5-HighTOP 15
  • 16Kimi-K2-Thinking-TurboTOP 20
  • 17O3-2025TOP 20
  • 18Qwen3-Max-PreviewTOP 20
  • 19Grok-4.1-Fast-ReasoningTOP 20
  • 20DeepSeek-V3.2-ExpTOP 20

为什么选择LMArena?

LMArena已成为AI研究者、开发者和企业选择AI模型的首选参考平台。以下是LMArena的核心优势:

🎯

盲测机制确保公正

LMArena的盲测设计让用户在不知道模型身份的情况下进行评价,杜绝品牌效应带来的偏见,真正评估AI能力。

📊

海量真实数据

LMArena已累积超过460万次文本评测投票,覆盖276个模型。庞大的数据量保证了LMArena排名的统计可靠性。

🔬

多维度评测

LMArena提供九大排行榜,包括文本对话、视觉理解、网页开发、图像生成、图像编辑、搜索、文生视频和图生视频,全面评估AI能力。

🌐

开放透明

LMArena所有评测数据公开可查,研究者可自由下载分析。LMArena的开放性赢得了学术界和产业界的广泛信任。

镜像服务

银河录像局是一家专注于AI工具服务的领先平台,提供Gemini、ChatGPT、Claude、Grok等主流AI工具的镜像访问服务,无需国际网络环境,国内直连,稳定快速。我们的镜像服务采用高速CDN加速,确保您获得与官方网站一致的流畅体验。

🚀

银河录像局 - AI工具镜像服务

提供Gemini、ChatGPT、Claude、Grok等主流AI工具的国内直连镜像服务,高速CDN加速,稳定流畅,无需国际网络环境。

立即体验镜像服务

LMArena使用指南

如何在LMArena参与评测

访问LMArena官网后,您可以选择感兴趣的评测领域。在LMArena的对话界面中输入问题,系统会同时向两个匿名模型发送请求。阅读两个回答后,选择您认为更好的一方进行投票。投票完成后LMArena会揭示模型身份。

LMArena评分系统解读

LMArena使用ELO评分系统,初始分数为1000分。当模型战胜对手时获得积分,失败则扣分。分数越高代表在LMArena平台上的表现越优秀。目前顶级模型的LMArena评分普遍在1400-1500分区间。

LMArena对行业的影响

LMArena的排名已成为AI行业的风向标。各大AI公司将LMArena排名作为产品发布的重要宣传点,研究论文也常引用LMArena数据作为性能基准。可以说,LMArena正在重新定义AI模型的评价标准。