SuperCLUE
中国
AI模型评测

SuperCLUE

SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。

标签:

SuperCLUE是什么

SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。

SuperCLUE

图为2025年10月9日的评测数据

SuperCLUE的主要功能

多维度测评榜单

SuperCLUE通过多个维度的榜单,对大模型进行综合性评估与排名。

  • 通用榜 (The Chinese Language Understanding Evaluation): 提供中文语言理解能力的测评基准
  • 专项榜: 提供针对特定能力的评测,覆盖范围包括:
    • 基础能力: CoT语义推理、科学推理、数学推理、长文本、超长文本等。
    • 专业能力: 代码生成(项目级、Code3)、金融、汽车、工业、安全、法律等。
    • 特定问题: 忠实性幻觉、中文事实性幻觉、角色扮演、RAG检索增强生成等。
  • 智能体榜: 评估模型的智能体(AI Agent)能力,包括指令遵循、规划、工具使用等。
  • 智能指数: 通过总分、数学推理、科学推理、代码生成、智能体Agent等多个细分项对模型进行综合评分,并提供生成耗时与模型价格作为参考。

实时互动竞技场

  • 提供一个匿名的、模型并列的测评环境。
  • 用户可以根据给出的提示词,对两个不同模型生成的匿名结果进行投票,选出“这个更好”的答案。
  • 目前已包含文本生成和图片编辑等竞技场。

SuperCLUE的评测原则

为了确保测评的公正性和科学性,SuperCLUE遵循以下原则:

  • “Live”更新, 0数据污染: 测评题库定期(每半月)100%替换,杜绝过拟合风险,确保大模型进展Live更新。
  • 测评方式与用户交互一致: 测评任务和交互方式模拟真实落地场景,还原用户视角。
  • 独立第三方, 无自家模型: 作为完全独立的第三方评测机构,不研发自家模型,承诺提供无偏倚的客观、中立评测结果。

SuperCLUE的网址

https://www.superclueai.com/homepage

相关导航

暂无评论

暂无评论...