SuperCLUE

中国

SuperCLUE

SuperCLUE是一个专注于中文大模型综合测评的权威平台，其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准，以及客观、公正的参考依据。

标签：AI模型评测SuperCLUE superclueai

链接直达手机查看

libtv

SuperCLUE是什么

SuperCLUE是一个专注于中文大模型综合测评的权威平台，其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准，以及客观、公正的参考依据。

SuperCLUE

图为2025年10月9日的评测数据

SuperCLUE的主要功能

多维度测评榜单

SuperCLUE通过多个维度的榜单，对大模型进行综合性评估与排名。

通用榜 (The Chinese Language Understanding Evaluation): 提供中文语言理解能力的测评基准
专项榜: 提供针对特定能力的评测，覆盖范围包括：
- 基础能力: CoT语义推理、科学推理、数学推理、长文本、超长文本等。
- 专业能力: 代码生成（项目级、Code3）、金融、汽车、工业、安全、法律等。
- 特定问题: 忠实性幻觉、中文事实性幻觉、角色扮演、RAG检索增强生成等。
智能体榜: 评估模型的智能体（AI Agent）能力，包括指令遵循、规划、工具使用等。
智能指数: 通过总分、数学推理、科学推理、代码生成、智能体Agent等多个细分项对模型进行综合评分，并提供生成耗时与模型价格作为参考。

实时互动竞技场

提供一个匿名的、模型并列的测评环境。
用户可以根据给出的提示词，对两个不同模型生成的匿名结果进行投票，选出“这个更好”的答案。
目前已包含文本生成和图片编辑等竞技场。

SuperCLUE的评测原则

为了确保测评的公正性和科学性，SuperCLUE遵循以下原则：

“Live”更新, 0数据污染: 测评题库定期（每半月）100%替换，杜绝过拟合风险，确保大模型进展Live更新。
测评方式与用户交互一致: 测评任务和交互方式模拟真实落地场景，还原用户视角。
独立第三方, 无自家模型: 作为完全独立的第三方评测机构，不研发自家模型，承诺提供无偏倚的客观、中立评测结果。

SuperCLUE的网址

https://www.superclueai.com/homepage

相关导航

CLUE中文语言理解基准测评

CLUE中文语言理解基准测评

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

Livebench LLM模型的基准测试平台

LiveBench 是一个针对大型语言模型（LLM）的权威基准测试平台，提供一个公平、客观且无污染的评测环境，以评估和比较不同 LLM 的性能

Artificial Analysis AI基准测试平台

Artificial Analysis AI基准测试平台

Artificial Analysis平台是一家领先的独立AI基准测试和分析平台

Arena.ai（前身为 LMSYS）

Arena.ai（前身为 LMSYS）

arena.ai 评测竞技场排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的评测平台，用于通过人类偏好评估人工智能

superbench 大模型评测榜单

SuperBench是由清华大学基础模型研究中心联合中关村实验室在2024年共同发布的大模型综合能力评测榜单

LYi 林哥的大模型野榜

LYi 林哥的大模型野榜

让用户出题，安排AI模型回答，由用户选择评判，从而对大模型进行评分排名和产品介绍，帮助用户筛选合适模型

暂无评论

暂无评论...