Arena是什么
Arena(前身为 LMSYS)是一个由 UC Berkeley 研究人员创建的社区驱动平台,专注于衡量和推动 AI 在现实世界应用中的前沿发展。该平台汇集了数千万建设者、研究人员和创意专业人士,通过使用前沿模型并提供反馈,共同塑造一个基于现实世界使用情况的公共排行榜(Leaderboard)。Arena 致力于构建基础,帮助每个人理解、塑造并受益于人工智能,其核心任务是了解 AI 在现实世界中的性能表现。
Arena的主要功能
全面模型排行榜(Leaderboard Overview)
Arena 提供跨多个维度的领先 AI 模型性能快照,通过 Rank(排名)、Score(分数)和 Votes(投票数)展示模型表现。涵盖的领域包括:
- Text(文本): 评估如
claude-opus-4-6-thinking、gemini-3.1-pro-preview、grok-4.20-beta1、gpt-5.2-chat-latest等模型。 - Code(代码): 评估如
claude-opus-4-6、gpt-5.2-high、gemini-3.1-pro-preview等编程模型。 - Vision(视觉): 涵盖
gemini-3-pro、kimi-k2.5-thinking、gpt-5.1-high等。 - Text-to-Image(文生图): 包含
gpt-image-1.5-high-fidelity、flux-2-max、reve-v1.5等。 - Image Edit(图像编辑): 涵盖
chatgpt-image-latest-high、seedream-4.5等。 - Search(搜索): 评估
claude-opus-4-6-search、grok-4.1-fast-search、gpt-5.2-search等。 - Video(视频): 提供 Text-to-Video 和 Image-to-Video 的模型排行。
多样化交互模式
在聊天界面,用户可以通过下拉菜单选择不同的模型互动方式:
- Battle Mode: 与两个匿名模型进行对战(Battle 2 anonymous models)。
- Side by Side: 选择两个特定模型进行对比(Compare 2 models of your choice)。
- Direct: 与单个模型进行直接对话(Chat with 1 model at a time)。
AI 评估服务(AI Evaluations)
面向企业、模型实验室和开发人员,提供全面的评估服务。这些服务基于现实世界的人类反馈,帮助机构准确了解模型性能。
如何使用Arena
用户可以通过以下方式开始使用:
- 进入新对话: 点击界面左上角的 “New Chat” 或 “Start Voting”。
- 选择模式: 在聊天界面的下拉菜单中选择 “Battle Mode”、”Side by Side” 或 “Direct” 模式。
- 输入指令: 在 “Ask anything…” 输入框中输入提示词。支持多种输入格式,包括附件上传、Web 搜索(闪电图标)、代码输入和图像上传。
- 参与反馈: 根据模型生成的回答进行互动和投票,数据将汇入排行榜。
Arena的官网地址及联系方式
- 官网地址: https://arena.ai/
- 社交媒体与社区: Discord, X (Twitter), LinkedIn (可在 “Join The Community” 版块找到链接)
相关导航
暂无评论...
