当前位置:首页|资讯

MMLU-Pro 基准测试数据集上线,DeepSeek 数学模型一键部署!

作者:HyperAI超神经发布时间:2024-09-14

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。 然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。 为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 Theo...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1