AGI-Eval评测社区,AI大模型评测社区
AGI-Eval是一个AI大模型评测社区
里面有AI大模型评测榜单、人机比赛、评测集社区、Data Studio这几个板块
SuperBench是由清华大学基础模型研究中心联合中关村实验室在2024年共同发布的大模型综合能力评测榜单
Artificial Analysis平台是一家领先的独立AI基准测试和分析平台
lmarena.ai 评测竞技场排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的评测平台,用于通过人类偏好评估人工智能
LiveBench 是一个针对大型语言模型(LLM)的权威基准测试平台,提供一个公平、客观且无污染的评测环境,以评估和比较不同 LLM 的性能
SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。
让用户出题,安排AI模型回答,由用户选择评判,从而对大模型进行评分排名和产品介绍,帮助用户筛选合适模型