LLM 数学基准测试集 FrontierMath 公布：号称业界模型均败北

作者：IT之家发布时间：2024-11-15

IT之家 11 月 15 日消息，研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集，旨在评估系列模型的数学推理能力。

与现有诸如 GSM-8K、MATH 等测试题集不同，FrontierMath 中的数学问题号称特别复杂，收录了现代数学中的数论、代数和几何等领域，这些题目的难度据称极高，甚至人类专家解答往往需要数小时甚至数天的时间。

IT之家获悉，FrontierMath 的题目由人工智能学方面资深专家设计，相应问题号称不仅要求 AI 理解数学概念，还需要具备复杂情境的推理能力，以避免模型利用以前学习过的类似题目进行比对作答。

▲ 题库中的题型举例

研究机构表示，他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试，发现这些模型普遍表现不佳，包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解题成功率也均败北（成功率低于 2%）。

研究团队指出，AI 在解决高级数学问题时的主要困难在于这些模型通常依赖于训练数据中学过的类似题目来生成答案，而不是对问题本身的逻辑结构进行真正的理解和推理。这意味着目前业界大部分 AI 模型只要遇到没学过的题目，就容易出错，而这一原则性的问题难以实际上无法通过“暴力增加模型规模”解决，需要研发人员从模型推理架构层面进行深入改造。

相关资讯

大模型之基准测试集-云栖大会上给通义千问测评的10个权威测基准(Benchmark)测评集

在今年(2023)云栖大会上，通义千问2.0发布，基本测评集：CMMLU、MMLU、C-EVM8k、Gaokao-Bench、AGIEval、MATH、BBH、HumanEval、MBPP、榜单等

通义千问

_山海 2023-12-07

LLM 数学基准测试集 FrontierMath 公布：号称业界模型均败北

推荐体验

相关资讯

大模型之基准测试集-云栖大会上给通义千问测评的10个权威测基准(Benchmark)测评集

系统性基准测试LLM和持续监控AI性能

大模型国产化适配9-LLM推理框架MindIE-Service性能基准测试

新V观海外：数据集和基准测试变革预示AI能力突变

大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）

近期资讯

猪脑死亡50分钟再“复活”背后：一个广州科研团队的勇与闯

【汽车】雷军宣布小米SU7第10万台车下产线用时230天

密云三中举办“遇见花开”戏剧嘉年华活动

OpenAI联合创始人格雷格·布罗克曼重返岗位

成都青羊：正努力对接“昊龙”货运航天飞机项目

震撼视听盛宴，海信75D71Q Mini LED电视6399元强势来袭

英伟达与软银打造日本最强AI计算机，孙正义后悔错失三次成英伟达最大股东机会

上海聚倍物联网科技取得小型智能恒压供水系统专利，实现远程监控功能

LG 2025 款 OLED 电视 55 英寸 C5、65 英寸 G5 通过韩国 KC 认证

银光集团“三结合”改善模式激活员工创新“小宇宙”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响