中国五连冠终结，美国重登IMO宝座，AI智商被第一题打回原形

作者：新智元发布时间：2024-07-23

IMO 2024最终结果终于出炉了！破天荒的是，四年后美国队再次斩获第一，领先中国队两分。对于LLM来说，IMO最简单的第一题，GPT-4o、Claude 3.5 Sonnet等模型全部回答失败了。

中国蝉联IMO五年冠军的纪录，如今被美国队打破了！

这几天，第65届IMO公布了最终获胜国家队，美国以192分的成绩位列第一，中国以2分之差位居第二。

值得一提的是，印度队首次冲进第四。

中国和美国IMO团队均拿下了5枚金牌，1枚银牌

IMO是全球最顶尖的高中数学竞赛，吸引了来自世界各地的优秀年轻数学家。

今年，有108个国家和地区的609名学生参赛。

中国队中的Haojia Shi已经连续两次获得个人满分的选手，也是史上第7位获得满分的选手。

美国选手Alexander Wang和Jessica Wan分别在个人排名中位列第三和第五。

六位队员，四个是华人

从左到右：Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang

2024年美国IMO队成员是：

- Jordan Lefkowitz，17岁（康涅狄格州）

- Krishna Pothapragada，18岁（伊利诺伊州）

- Jessica Wan，18岁（佛罗里达州）

- Alexander Wang，16岁（新泽西州）

- Qiao（Tiger）Zhang，16岁（加利福尼亚州）

- Linus Tang，18岁（加利福尼亚州）

Jessica Wan是自2007年以来，第一个加入美国IMO团队的女性。个人成绩虽没有大满贯，但也拿下了4个满分。

而在此之前，她便是一个数学领域的尖子生。

去年，MIT举办的第15届女性数学（MP4G）大赛上，就读高中的Jessica Wan夺得了三连冠。

比赛中，20道题目中，Jessica做对了17道，成为这次MP4G竞赛中，最成功的参与者。

她还连续四年，参与了欧洲女子数学奥林匹克（EGMO）竞赛，其中两次拔得头筹。

Alexander Wang是新泽西州Millburn学校的高一学生。

对他来说，数学是一门有趣而简洁的学科。从幼儿园起，Wang便对数学非常感兴趣。

为了能够帮助更多的学生学习数学，发现数学的有趣之处，他联手Angelina Wang、Bill Sun成立了一个非盈利的组织——impact learners。

值得一提的是，他也是IMO 2023美国队的成员之一。在2023罗马尼亚数学大师赛上获得了个人金牌和团体冠军，他还两次入选MATHCOUNTS全国赛。

Linus Tang就读于内华达州里诺市的Davidson Academy线上课程。2021年，在斯坦福数学锦标赛上，他在组合数学中获得第一名。

他曾在2022年春季，研究了一个名为「保加利亚纸牌」游戏的数学原理。

在Linus一年的时候，他便赢得了人生首个数学奖——Math Kangaroo，他表示，在幼儿时期在拼图游戏中花费大量时间，锻炼了自己的视觉化能力。

十年IMO leader更人

值得一提的是，这次美国队能够获胜，与项目leader也有一定的关系。

自2014年以来，美国IMO队一直由华裔数学家、CMU教授Po-Shen Loh（罗博深）带队，他曾带领美国队分别在2015、2016、2018、2019年，赢得了IMO金牌。

2019年那次，是中国队与美国队并列第一，至此四年后中国队连霸榜首，美国队一直位列全球第二。

这次，John Berman成为了美国IMO队的负责人。

他获得了MIT数学学士学位，并在2018年获得了弗吉尼亚大学的数学博士学位。目前，他还是Geodemath在线课程的导师。

在团队获胜后，Berman发文对此表示庆祝。

IMO 2024试题

本届国际奥数竞赛共有6道题目，9小时作答时间。

以下是完整试卷内容，感兴趣的小伙伴尝试挑战下。

第一题解析：https://www.youtube.com/watch?v=50W_ntnPX0k

第二题解析：https://www.youtube.com/watch?v=VXFG1t_ksfI

第三题解析：https://www.youtube.com/watch?v=ASV1dZCuWGs

第四题解析：https://www.youtube.com/watch?v=WnZv3fdpFXo

第五题解析：https://www.youtube.com/watch?v=wfQkk9WktGE

第六题解析：https://www.youtube.com/watch?v=7h3gJfWnDoc

IMO第一题，大模型惨败

有网友表示，IMO试题为前沿模型提供了一个很好的测试集。

一般来说，IMO试题仅需要高中数学知识就够了，而且第一道题最简单，人类选手通常会在60分钟内完成。

那么，你能猜到，对于地表最强的LLM来说，做的如何？

经过一番测试，结果如下：

GPT-4：失败。即使指出错误，也无济于事。
GPT-4o：失败。即使指出错误，也无济于事。
Claude 3.5 Sonnet：失败。指出错误确实帮助模型简短地给出了正确答案，但随后继续走上了错误的道路。

看来，大模型要走的路，还远着呢。

参考资料

https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920

https://x.com/sytelus/status/1815203518913085900

本文来自微信公众号“新智元”，作者：桃子好困，36氪经授权发布。

相关资讯

七连冠！用友蝉联中国SaaS市场第一！

近日，赛迪顾问发布《2023-2024年中国云计算市场研究年度报告》，2023年用友在中国SaaS市场占有率第一，这也是用友连续7年蝉联中国SaaS市场第一，再次彰显了用友在企业云服务市场的领导者地位。随着互联网的广泛普及、AI大模型加速迭代、各类智能终端加快渗透，企业数智化转型不断深入，越来越多的企业希望通过云计算技术推动业务创新和管理变革，同时企业开始积极尝试将生成式AI融入工作流程，以探索各种创新的可能性。据数据显示，SaaS正在成为将新的GenAI功能集成到应用程序中的首选交付途径。到2

AI大模型生成式AI

用友 2024-07-25

Novalic 2024-07-01

全球市值第一的宝座，英伟达能坐多久？

英伟达苹果 OpenAI 谷歌

i黑马 2024-06-25

近期资讯

程序员副业探索：自媒体与RPA结合思路

看过的书，做过的项目，副业项目的灵感，一些奇技淫巧... 关注我的公众号：程序员苏桑引言在当今数字化时代，自媒体已成为许多人获取信息和表达自我的重要平台。对于普通人来说是一个增加收入的机会，持续的

程序员苏桑 2024-11-15

Omakub：一个专为Ubuntu设计的Web开发者配置方案

在Linux社区中似乎还存在一种入会仪式，要求你必须精通每款工具及其主题细节，以此证明你是真正的极客；Omakub 是为所有这些未来的 Linux 用户而设，是对Linux最佳状态的一种见解。

埃兰德欧神 2024-11-15

Spring Boot应用中的文件压缩与解压技术实践

在构建Spring Boot应用时，文件压缩与解压是处理大量数据、优化存储和传输速度的常用技术。本文旨在深入探讨Spring Boot应用中文件压缩与解压的实现方法，包括常见压缩算法的选择、Sprin

yourmike 2024-11-15

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

【新智元导读】全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。来自中国的视频生成模型，再一次震惊了全球大模

新智元 2024-11-14

得物精准测试平台设计与实现

精准测试是一套有效提高软件测试质量和效率的技术体系，可以有效解决传统测试中的盲测、漏测、冗测等现象提升测试效率和准确性，前置暴露风险保障上线质量。本文主要介绍了得物精准测试平台推荐引擎中部分核心功能的

得物技术 2024-11-14

初试js反混淆

一、目标最近js玩的花样越来越多了，本来简洁方便的一门开发语言，现在混淆的一塌糊涂。今天我们就介绍几种常见的反混淆方案。混淆的本质就是等价替换，把 a = 12 ,替换成 a = 100 -

fenfei331 2024-11-14

入行前端七年之痒自叙我来时的路

大家好，我叫入秋于2016年加入掘金大家庭，一个即将告别青春，步入中年人世界的大龄单身青年，至今已入行第七个年头，刚好七年之痒，也即将迎来八年之痛。希望大家像看小说一样看完我这七年。

入秋 2024-11-15

拥抱Data+AI｜玩家去哪儿了？解码Data+AI如何助力游戏日志智能分析

本文为数据库「拥抱Data+AI」系列连载第2篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。

数据库小能手 2024-11-15

Linux实时文件同步：rsync与inotify的完美结合

自动同步 Linux自动同步 Linux实时同步 master同步slave master与slave文件实时同步

Rm 2024-11-15

对于闭包的理解，这样理解很加分

经典问题。闭包的理解，闭包概念，闭包的形成，闭包应用。闭包在vue2响应式原理中的应用。闭包的理解可以说的东西。Object.defineProperty方法的使用

这可不简单 2024-11-15

中国五连冠终结，美国重登IMO宝座，AI智商被第一题打回原形

六位队员，四个是华人

十年IMO leader更人

IMO 2024试题

IMO第一题，大模型惨败

参考资料

推荐体验

相关资讯

七连冠！用友蝉联中国SaaS市场第一！

汗流浃背的一个小时——海马体一面，第一题就不会

百度AI又获第一，文库荣获AI产品榜“三连冠”

类型转换这一题，居然把AI大模型绕晕了？--JS基础篇（八）

全球市值第一的宝座，英伟达能坐多久？

近期资讯

程序员副业探索：自媒体与RPA结合思路

Omakub：一个专为Ubuntu设计的Web开发者配置方案

Spring Boot应用中的文件压缩与解压技术实践

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

得物精准测试平台设计与实现

初试js反混淆

入行前端七年之痒自叙我来时的路

拥抱Data+AI｜玩家去哪儿了？解码Data+AI如何助力游戏日志智能分析

Linux实时文件同步：rsync与inotify的完美结合

对于闭包的理解，这样理解很加分

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响