今年数学到底有多难？大模型：我也不太会啊

作者：搜狐城市-晋中发布时间：2024-06-10

文心一言通义千问

如果说高考语文作文题所考察的文字功底是各家大模型的入门基本功的话，那么数学的难度Level就更考验大模型的图像识别与分析能力了。毕竟曲线题、导数题、函数题、几何题可不是什么善茬。（这可能也是为什么很少有人在网上讨论数学题的原因了）

因此，我们测试了GPT-4o、kimi、文心一言、讯飞星火大模型、百小应、通义千问、360大模型、豆包这8款目前市面上主流的几款大模型，看看它们遇到“硬茬”时又会作何表现呢？

为了更全面的考察大模型的综合性能，我们分别选取了数学I卷的一道立体几何题和一道函数题，以考察大模型的空间理解能力和逻辑推理能力，以下为具体考题：

立体几何题：

函数题：

（下文各图左侧为立体几何题，右侧为函数题）

GPT-4o

Kimi

文心一言

讯飞星火大模型

百小应

通义千问

360智脑

豆包

以上就是所有8款大模型在作答今年高考数学I卷的表现，可以发现，尽管大模型们在今年历经多次迭代，但在本次测试中的表现并不尽如人意，且关于同一道题目所给出的答案也不尽相同。

除此之外，GPT-4O则使用全英文答题；通义千问在作答函数题时出现了“bug”现象，对同一函数式开始无限循环；豆包甚至由于tokens用尽出现了无法进行完整作答；文心一言也对题干信息理解错误……

由此可见，不仅是考生们直呼今年数学“太难了”“裂开了”，就连大模型们的发挥也不如预期中的优秀。

编辑：王志力

相关资讯

驯化kimi整理日记到底有多难？

和kimi相处这几天我发现最朴实无华的真理：它比我犟，还会狡辩，得和它斗智斗勇才能用好它

脑呆瓜 2024-09-27

谷歌推迟AI大模型Gemini发布追赶OpenAI到底有多难？

谷歌推迟AI大模型Gemini发布追赶OpenAI到底有多难？划重点： 1 谷歌宣布推迟人工智能大模型Gemini的发布，这凸显出其在追赶OpenAI时面临的艰巨挑战。 2

谷歌 OpenAI AI大模型人工智能

腾讯科技 2023-12-03

麻省理工新研究发现人工智能不太会取代人类的工作

站长之家（ChinaZ.com）1月23日消息:麻省理工学院计算机科学与人工智能实验室（CSAIL）进行的新研究挑战了之前对人工智能对就业和自动化的预测。尽管许多先前的研究表明，人工智能可能会在未来几年内自动化大量工作，但这项最新研究认为实际情况可能比预期更为缓慢。

人工智能

站长之家 2024-01-24

OpenAI今年将亏损50亿美元？大模型到底有多烧钱？

从去年开始，大模型已经在全球范围内快速普及，作为全球最有名大模型提供者OpenAI却被媒体曝出有可能今年将亏损50亿美元的消息，让人不禁想问这到底是怎么回事？据每日经济新闻的报道，据外媒报道，作为历史上崛起速度最快的初创企业之一，OpenAI这一非凡成就的背后，也潜藏着运营成本飙升的挑战。

OpenAI

江瀚视野 2024-08-03

AI绘画，原神空哥，身着铠甲的图。AI不太会画眼睛。2023年10月8日

图片皆出自AI之手。

AI绘画

圣帆 2023-10-08

近期资讯

苹果放弃探索硬件订阅，官方租手机无利可图

虽然看起来很美，但实际落地的过程中却几乎处处是坑。

三易生活 2024-12-25

火狐浏览器为竞争对手谷歌喊冤，都是钱惹的祸

为避免重蹈网景的覆辙，Mozilla当然就要为谷歌这个竞争对手喊冤了。

三易生活 2024-12-25

手机影像的2024：九大技术趋势下，安卓全面碾压iPhone

如何让专业影像技术日用化、随身化、简单化？

雷科技 2024-12-25

“中国英伟达”猝死于2024

只做“替代”很难上牌桌。

36氪的朋友们 2024-12-25

通义赶“末班车”

摇摆中的通义选择“二次入场”

光子星球 2024-12-25

昔日明星企业破产，碳化硅市场出清加速

没钱勿入。

半导体产业纵横 2024-12-25

头皮护理：年轻人“头”等大事的下一个金矿？

深眸财经 2024-12-25

OpenAI o3 被曝智商高达 157，比肩爱因斯坦，但却没法证明比人类聪明

AI 有多聪明？

爱范儿 2024-12-25

2024财富缩水最多的5位亿万富豪，1位来自中国

2024年财富缩水最多：阿尔诺、斯利姆、贝当古、黄峥、盖茨。

36氪的朋友们 2024-12-25

2024中国智能AR眼镜十大关键词发布

一半海水，一半火焰。

亿欧网 2024-12-25

今年数学到底有多难？大模型：我也不太会啊

推荐体验

相关资讯

驯化kimi整理日记到底有多难？

谷歌推迟AI大模型Gemini发布追赶OpenAI到底有多难？

麻省理工新研究发现人工智能不太会取代人类的工作

OpenAI今年将亏损50亿美元？大模型到底有多烧钱？

AI绘画，原神空哥，身着铠甲的图。AI不太会画眼睛。2023年10月8日

近期资讯

苹果放弃探索硬件订阅，官方租手机无利可图

火狐浏览器为竞争对手谷歌喊冤，都是钱惹的祸

手机影像的2024：九大技术趋势下，安卓全面碾压iPhone

“中国英伟达”猝死于2024

通义赶“末班车”

昔日明星企业破产，碳化硅市场出清加速

头皮护理：年轻人“头”等大事的下一个金矿？

OpenAI o3 被曝智商高达 157，比肩爱因斯坦，但却没法证明比人类聪明

2024财富缩水最多的5位亿万富豪，1位来自中国

2024中国智能AR眼镜十大关键词发布

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响