Arena.ai（前身为 LMSYS）

Arena.ai（前身为 LMSYS）翻译站点

arena.ai 评测竞技场排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的评测平台，用于通过人类偏好评估人工智能

标签：AI模型评测Chatbot Arena lmarena

链接直达手机查看

吐司ai

Arena是什么
Arena（前身为 LMSYS）是一个由 UC Berkeley 研究人员创建的社区驱动平台，专注于衡量和推动 AI 在现实世界应用中的前沿发展。该平台汇集了数千万建设者、研究人员和创意专业人士，通过使用前沿模型并提供反馈，共同塑造一个基于现实世界使用情况的公共排行榜（Leaderboard）。Arena 致力于构建基础，帮助每个人理解、塑造并受益于人工智能，其核心任务是了解 AI 在现实世界中的性能表现。

Arena.ai（前身为 LMSYS）

Arena的主要功能

全面模型排行榜（Leaderboard Overview）

Arena 提供跨多个维度的领先 AI 模型性能快照，通过 Rank（排名）、Score（分数）和 Votes（投票数）展示模型表现。涵盖的领域包括：

Text（文本）： 评估如 claude-opus-4-6-thinking、gemini-3.1-pro-preview、grok-4.20-beta1、gpt-5.2-chat-latest 等模型。
Code（代码）： 评估如 claude-opus-4-6、gpt-5.2-high、gemini-3.1-pro-preview 等编程模型。
Vision（视觉）： 涵盖 gemini-3-pro、kimi-k2.5-thinking、gpt-5.1-high 等。
Text-to-Image（文生图）： 包含 gpt-image-1.5-high-fidelity、flux-2-max、reve-v1.5 等。
Image Edit（图像编辑）： 涵盖 chatgpt-image-latest-high、seedream-4.5 等。
Search（搜索）： 评估 claude-opus-4-6-search、grok-4.1-fast-search、gpt-5.2-search 等。
Video（视频）： 提供 Text-to-Video 和 Image-to-Video 的模型排行。

多样化交互模式

在聊天界面，用户可以通过下拉菜单选择不同的模型互动方式：

Battle Mode： 与两个匿名模型进行对战（Battle 2 anonymous models）。
Side by Side： 选择两个特定模型进行对比（Compare 2 models of your choice）。
Direct： 与单个模型进行直接对话（Chat with 1 model at a time）。

AI 评估服务（AI Evaluations）

面向企业、模型实验室和开发人员，提供全面的评估服务。这些服务基于现实世界的人类反馈，帮助机构准确了解模型性能。

如何使用Arena

用户可以通过以下方式开始使用：

进入新对话： 点击界面左上角的 “New Chat” 或 “Start Voting”。
选择模式： 在聊天界面的下拉菜单中选择 “Battle Mode”、”Side by Side” 或 “Direct” 模式。
输入指令： 在 “Ask anything…” 输入框中输入提示词。支持多种输入格式，包括附件上传、Web 搜索（闪电图标）、代码输入和图像上传。
参与反馈： 根据模型生成的回答进行互动和投票，数据将汇入排行榜。

Arena的官网地址及联系方式

官网地址： https://arena.ai/
社交媒体与社区： Discord, X (Twitter), LinkedIn (可在 “Join The Community” 版块找到链接)

相关导航

Artificial Analysis AI基准测试平台

Artificial Analysis AI基准测试平台

Artificial Analysis平台是一家领先的独立AI基准测试和分析平台

AGI-Eval评测社区，AI大模型评测社区

CLiB中文大模型能力评测榜单

CLiB中文大模型能力评测榜单

是一个关于中文大模型能力评测的榜单仓库，涵盖 195 个商用及开源大模型，进行多维度能力评测（包括医疗、教育、法律等众多领域），有多种排行榜分类且记录详细更新信息。

Livebench LLM模型的基准测试平台

LiveBench 是一个针对大型语言模型（LLM）的权威基准测试平台，提供一个公平、客观且无污染的评测环境，以评估和比较不同 LLM 的性能

LYi 林哥的大模型野榜

LYi 林哥的大模型野榜

让用户出题，安排AI模型回答，由用户选择评判，从而对大模型进行评分排名和产品介绍，帮助用户筛选合适模型

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face 推出新版开源大模型排行榜（Open LLM Leaderboard）

暂无评论

暂无评论...