ai工具大全 由复旦大学NLP实验室推出的大模型评测基准 LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学... ai工具大全 2025-09-27 14 #AI模型评测
ai工具大全 H2O.ai推出的基于Elo评级方法的大模型评估系统 H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalG... ai工具大全 2025-09-27 12 #AI模型评测
ai工具大全 AI模型评估平台 LMArena是加州大学伯克利分校推出的创新AI模型评估平台,基于让用户对不同AI模型的回答进行匿名投票,衡量模型的表现。用户输入问题后,平台提供两个模型的回答,用户根据偏好选择更优答案,投票结果直接... ai工具大全 2025-09-27 12 #AI模型评测
ai工具大全 大规模多任务语言理解基准 MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大... ai工具大全 2025-09-26 14 #AI模型评测
ai工具大全 Hugging Face推出的开源大模型排行榜单 Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation... ai工具大全 2025-09-25 14 #AI模型评测