AI模型评测

Arena.ai(前身为 LMSYS)翻译站点

arena.ai 评测竞技场排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的评测平台,用于通过人类偏好评估人工智能

标签:
吐司ai

Arena是什么
Arena(前身为 LMSYS)是一个由 UC Berkeley 研究人员创建的社区驱动平台,专注于衡量和推动 AI 在现实世界应用中的前沿发展。该平台汇集了数千万建设者、研究人员和创意专业人士,通过使用前沿模型并提供反馈,共同塑造一个基于现实世界使用情况的公共排行榜(Leaderboard)。Arena 致力于构建基础,帮助每个人理解、塑造并受益于人工智能,其核心任务是了解 AI 在现实世界中的性能表现。

Arena.ai(前身为 LMSYS)

Arena的主要功能

全面模型排行榜(Leaderboard Overview)

Arena 提供跨多个维度的领先 AI 模型性能快照,通过 Rank(排名)、Score(分数)和 Votes(投票数)展示模型表现。涵盖的领域包括:

  • Text(文本): 评估如 claude-opus-4-6-thinkinggemini-3.1-pro-previewgrok-4.20-beta1gpt-5.2-chat-latest 等模型。
  • Code(代码): 评估如 claude-opus-4-6gpt-5.2-highgemini-3.1-pro-preview 等编程模型。
  • Vision(视觉): 涵盖 gemini-3-prokimi-k2.5-thinkinggpt-5.1-high 等。
  • Text-to-Image(文生图): 包含 gpt-image-1.5-high-fidelityflux-2-maxreve-v1.5 等。
  • Image Edit(图像编辑): 涵盖 chatgpt-image-latest-highseedream-4.5 等。
  • Search(搜索): 评估 claude-opus-4-6-searchgrok-4.1-fast-searchgpt-5.2-search 等。
  • Video(视频): 提供 Text-to-Video 和 Image-to-Video 的模型排行。

多样化交互模式

在聊天界面,用户可以通过下拉菜单选择不同的模型互动方式:

  • Battle Mode: 与两个匿名模型进行对战(Battle 2 anonymous models)。
  • Side by Side: 选择两个特定模型进行对比(Compare 2 models of your choice)。
  • Direct: 与单个模型进行直接对话(Chat with 1 model at a time)。

AI 评估服务(AI Evaluations)

面向企业、模型实验室和开发人员,提供全面的评估服务。这些服务基于现实世界的人类反馈,帮助机构准确了解模型性能。

如何使用Arena

用户可以通过以下方式开始使用:

  1. 进入新对话: 点击界面左上角的 “New Chat” 或 “Start Voting”。
  2. 选择模式: 在聊天界面的下拉菜单中选择 “Battle Mode”、”Side by Side” 或 “Direct” 模式。
  3. 输入指令: 在 “Ask anything…” 输入框中输入提示词。支持多种输入格式,包括附件上传、Web 搜索(闪电图标)、代码输入和图像上传。
  4. 参与反馈: 根据模型生成的回答进行互动和投票,数据将汇入排行榜。

Arena的官网地址及联系方式

  • 官网地址: https://arena.ai/
  • 社交媒体与社区: Discord, X (Twitter), LinkedIn (可在 “Join The Community” 版块找到链接)

相关导航

暂无评论

暂无评论...