IMO 2024最终结果终于出炉了!破天荒的是,四年后美国队再次斩获第一,领先中国队两分。对于LLM来说,IMO最简单的第一题,GPT-4o、Claude 3.5 Sonnet等模型全部回答失败了。
中国蝉联IMO五年冠军的纪录,如今被美国队打破了!
这几天,第65届IMO公布了最终获胜国家队,美国以192分的成绩位列第一,中国以2分之差位居第二。
值得一提的是,印度队首次冲进第四。
中国和美国IMO团队均拿下了5枚金牌,1枚银牌
IMO是全球最顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。
今年,有108个国家和地区的609名学生参赛。
中国队中的Haojia Shi已经连续两次获得个人满分的选手,也是史上第7位获得满分的选手。
美国选手Alexander Wang和Jessica Wan分别在个人排名中位列第三和第五。
从左到右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang
2024年美国IMO队成员是:
- Jordan Lefkowitz,17岁(康涅狄格州)
- Krishna Pothapragada,18岁(伊利诺伊州)
- Jessica Wan,18岁(佛罗里达州)
- Alexander Wang,16岁(新泽西州)
- Qiao(Tiger)Zhang,16岁(加利福尼亚州)
- Linus Tang,18岁(加利福尼亚州)
Jessica Wan是自2007年以来,第一个加入美国IMO团队的女性。个人成绩虽没有大满贯,但也拿下了4个满分。
而在此之前,她便是一个数学领域的尖子生。
去年,MIT举办的第15届女性数学(MP4G)大赛上,就读高中的Jessica Wan夺得了三连冠。
比赛中,20道题目中,Jessica做对了17道,成为这次MP4G竞赛中,最成功的参与者。
她还连续四年,参与了欧洲女子数学奥林匹克(EGMO)竞赛,其中两次拔得头筹。
Alexander Wang是新泽西州Millburn学校的高一学生。
对他来说,数学是一门有趣而简洁的学科。从幼儿园起,Wang便对数学非常感兴趣。
为了能够帮助更多的学生学习数学,发现数学的有趣之处,他联手Angelina Wang、Bill Sun成立了一个非盈利的组织——impact learners。
值得一提的是,他也是IMO 2023美国队的成员之一。在2023罗马尼亚数学大师赛上获得了个人金牌和团体冠军,他还两次入选MATHCOUNTS全国赛。
Linus Tang就读于内华达州里诺市的Davidson Academy线上课程。2021年,在斯坦福数学锦标赛上,他在组合数学中获得第一名。
他曾在2022年春季,研究了一个名为「保加利亚纸牌」游戏的数学原理。
在Linus一年的时候,他便赢得了人生首个数学奖——Math Kangaroo,他表示,在幼儿时期在拼图游戏中花费大量时间,锻炼了自己的视觉化能力。
值得一提的是,这次美国队能够获胜,与项目leader也有一定的关系。
自2014年以来,美国IMO队一直由华裔数学家、CMU教授Po-Shen Loh(罗博深)带队,他曾带领美国队分别在2015、2016、2018、2019年,赢得了IMO金牌。
2019年那次,是中国队与美国队并列第一,至此四年后中国队连霸榜首,美国队一直位列全球第二。
这次,John Berman成为了美国IMO队的负责人。
他获得了MIT数学学士学位,并在2018年获得了弗吉尼亚大学的数学博士学位。目前,他还是Geodemath在线课程的导师。
在团队获胜后,Berman发文对此表示庆祝。
本届国际奥数竞赛共有6道题目,9小时作答时间。
以下是完整试卷内容,感兴趣的小伙伴尝试挑战下。
第一题解析:https://www.youtube.com/watch?v=50W_ntnPX0k
第二题解析:https://www.youtube.com/watch?v=VXFG1t_ksfI
第三题解析:https://www.youtube.com/watch?v=ASV1dZCuWGs
第四题解析:https://www.youtube.com/watch?v=WnZv3fdpFXo
第五题解析:https://www.youtube.com/watch?v=wfQkk9WktGE
第六题解析:https://www.youtube.com/watch?v=7h3gJfWnDoc
有网友表示,IMO试题为前沿模型提供了一个很好的测试集。
一般来说,IMO试题仅需要高中数学知识就够了,而且第一道题最简单,人类选手通常会在60分钟内完成。
那么,你能猜到,对于地表最强的LLM来说,做的如何?
经过一番测试,结果如下:
GPT-4:失败。即使指出错误,也无济于事。
GPT-4o:失败。即使指出错误,也无济于事。
Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确答案,但随后继续走上了错误的道路。
看来,大模型要走的路,还远着呢。
https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920
https://x.com/sytelus/status/1815203518913085900
本文来自微信公众号“新智元”,作者:桃子 好困,36氪经授权发布。