AI模型评测
SuperCLUE
SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。
标签:AI模型评测SuperCLUE superclueaiSuperCLUE是什么
SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。

图为2025年10月9日的评测数据
SuperCLUE的主要功能
多维度测评榜单
SuperCLUE通过多个维度的榜单,对大模型进行综合性评估与排名。
- 通用榜 (The Chinese Language Understanding Evaluation): 提供中文语言理解能力的测评基准
- 专项榜: 提供针对特定能力的评测,覆盖范围包括:
- 基础能力: CoT语义推理、科学推理、数学推理、长文本、超长文本等。
- 专业能力: 代码生成(项目级、Code3)、金融、汽车、工业、安全、法律等。
- 特定问题: 忠实性幻觉、中文事实性幻觉、角色扮演、RAG检索增强生成等。
- 智能体榜: 评估模型的智能体(AI Agent)能力,包括指令遵循、规划、工具使用等。
- 智能指数: 通过总分、数学推理、科学推理、代码生成、智能体Agent等多个细分项对模型进行综合评分,并提供生成耗时与模型价格作为参考。
实时互动竞技场
- 提供一个匿名的、模型并列的测评环境。
- 用户可以根据给出的提示词,对两个不同模型生成的匿名结果进行投票,选出“这个更好”的答案。
- 目前已包含文本生成和图片编辑等竞技场。
SuperCLUE的评测原则
为了确保测评的公正性和科学性,SuperCLUE遵循以下原则:
- “Live”更新, 0数据污染: 测评题库定期(每半月)100%替换,杜绝过拟合风险,确保大模型进展Live更新。
- 测评方式与用户交互一致: 测评任务和交互方式模拟真实落地场景,还原用户视角。
- 独立第三方, 无自家模型: 作为完全独立的第三方评测机构,不研发自家模型,承诺提供无偏倚的客观、中立评测结果。
SuperCLUE的网址
相关导航
暂无评论...