ai工具大全 AI大模型评测社区 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命... ai工具大全 2025-09-30 13 #AI模型评测
ai工具大全 上海人工智能实验室推出的大模型开放评测体系 OpenCompass是上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结... ai工具大全 2025-09-30 17 #AI模型评测
ai工具大全 中文通用大模型综合性测评基准 SuperCLUE 是针对中文大模型的综合性评测基准,能全面评估模型在多个维度上的性能表现。SuperCLUE 通过多轮对话、客观题测试等多种方式,从语言理解与生成、知识应用、专业技能、环境适应与安全... ai工具大全 2025-09-30 18 #AI模型评测
ai工具大全 一个综合性的大模型中文评估基准 CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识... ai工具大全 2025-09-30 19 #AI模型评测
ai工具大全 AI大模型服务性能评测平台 AI Ping是专注AI大模型服务性能评测的平台,通过全面、客观、真实的评测,为用户提供各大模型服务的性能数据,包括吞吐量、延迟等关键指标。AI Ping涵盖众多知名模型服务供应商,如无问芯穹、Sop... ai工具大全 2025-09-29 13 #AI模型评测
ai工具大全 智源研究院推出的FlagEval(天秤)大模型评测平台 FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系及开放平台,为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务... ai工具大全 2025-09-29 12 #AI模型评测
ai工具大全 全方位的多模态大模型能力评测体系 MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20... ai工具大全 2025-09-28 14 #AI模型评测
ai工具大全 斯坦福大学推出的大模型评测体系 HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。... ai工具大全 2025-09-28 14 #AI模型评测
ai工具大全 一个全面的中文基础模型评估套件 C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别... ai工具大全 2025-09-28 15 #AI模型评测
ai工具大全 生物医学研究问答数据集和模型得分排行榜 PubMedQA是专门用在生物医学研究问题回答的数据集。PubMedQA通过文献摘要回答“是/否/可能”形式的研究问题,例如“某种药物是否有效”。数据集包含1000个专家标注的问答实例、61200个未... ai工具大全 2025-09-28 16 #AI模型评测