AGI-Eval评测社区,AI大模型评测社区
AGI-Eval是一个AI大模型评测社区
里面有AI大模型评测榜单、人机比赛、评测集社区、Data Studio这几个板块
FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。
SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产品定位是“中文大模型综合性测评基准”。它为模型研发与应用提供科学、独立、前沿的评测标准,以及客观、公正的参考依据。
评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。
Hugging Face 推出新版开源大模型排行榜(Open LLM Leaderboard)
Artificial Analysis平台是一家领先的独立AI基准测试和分析平台
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。