AGI-Eval评测社区,AI大模型评测社区
AGI-Eval是一个AI大模型评测社区
里面有AI大模型评测榜单、人机比赛、评测集社区、Data Studio这几个板块
SuperBench是由清华大学基础模型研究中心联合中关村实验室在2024年共同发布的大模型综合能力评测榜单
SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。
是一个关于中文大模型能力评测的榜单仓库,涵盖 195 个商用及开源大模型,进行多维度能力评测(包括医疗、教育、法律等众多领域),有多种排行榜分类且记录详细更新信息。
Artificial Analysis平台是一家领先的独立AI基准测试和分析平台
LiveBench 是一个针对大型语言模型(LLM)的权威基准测试平台,提供一个公平、客观且无污染的评测环境,以评估和比较不同 LLM 的性能