中国五连冠终结,美国重登IMO宝座!AI智商被第一题打回原形

之槐看科技 2024-07-24 08:22:53

编辑:桃子 好困

【新智元导读】IMO 2024最终结果终于出炉了!破天荒的是,四年后美国队再次斩获第一,领先中国队两分。对于LLM来说,IMO最简单的第一题,GPT-4o、Claude 3.5 Sonnet等模型全部回答失败了。

中国蝉联IMO五年冠军的纪录,如今被美国队打破了!

这几天,第65届IMO公布了最终获胜国家队,美国以192分的成绩位列第一,中国以2分之差位居第二。

值得一提的是,印度队首次冲进第四。

中国和美国IMO团队均拿下了5枚金牌,1枚银牌

IMO是全球最顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。

今年,有108个国家和地区的609名学生参赛。

中国队中的Haojia Shi已经连续两次获得个人满分的选手,也是史上第7位获得满分的选手。

美国选手Alexander Wang和Jessica Wan分别在个人排名中位列第三和第五。

六位队员,四个是华人

从左到右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang

2024年美国IMO队成员是:

- Jordan Lefkowitz,17岁(康涅狄格州)

- Krishna Pothapragada,18岁(伊利诺伊州)

- Jessica Wan,18岁(佛罗里达州)

- Alexander Wang,16岁(新泽西州)

- Qiao(Tiger)Zhang,16岁(加利福尼亚州)

- Linus Tang,18岁(加利福尼亚州)

Jessica Wan是自2007年以来,第一个加入美国IMO团队的女性。个人成绩虽没有大满贯,但也拿下了4个满分。

而在此之前,她便是一个数学领域的尖子生。

去年,MIT举办的第15届女性数学(MP4G)大赛上,就读高中的Jessica Wan夺得了三连冠。

比赛中,20道题目中,Jessica做对了17道,成为这次MP4G竞赛中,最成功的参与者。

她还连续四年,参与了欧洲女子数学奥林匹克(EGMO)竞赛,其中两次拔得头筹。

Alexander Wang是新泽西州Millburn学校的高一学生。

对他来说,数学是一门有趣而简洁的学科。从幼儿园起,Wang便对数学非常感兴趣。

为了能够帮助更多的学生学习数学,发现数学的有趣之处,他联手Angelina Wang、Bill Sun成立了一个非盈利的组织——impact learners。

值得一提的是,他也是IMO 2023美国队的成员之一。在2023罗马尼亚数学大师赛上获得了个人金牌和团体冠军,他还两次入选MATHCOUNTS全国赛。

Linus Tang就读于内华达州里诺市的Davidson Academy线上课程。2021年,在斯坦福数学锦标赛上,他在组合数学中获得第一名。

他曾在2022年春季,研究了一个名为「保加利亚纸牌」游戏的数学原理。

在Linus一年的时候,他便赢得了人生首个数学奖——Math Kangaroo,他表示,在幼儿时期在拼图游戏中花费大量时间,锻炼了自己的视觉化能力。

十年IMO leader更人

值得一提的是,这次美国队能够获胜,与项目leader也有一定的关系。

自2014年以来,美国IMO队一直由华裔数学家、CMU教授Po-Shen Loh(罗博深)带队,他曾带领美国队分别在2015、2016、2018、2019年,赢得了IMO金牌。

2019年那次,是中国队与美国队并列第一,至此四年后中国队连霸榜首,美国队一直位列全球第二。

这次,John Berman成为了美国IMO队的负责人。

他获得了MIT数学学士学位,并在2018年获得了弗吉尼亚大学的数学博士学位。目前,他还是Geodemath在线课程的导师。

在团队获胜后,Berman发文对此表示庆祝。

IMO 2024试题

本届国际奥数竞赛共有6道题目,9小时作答时间。

以下是完整试卷内容,感兴趣的小伙伴尝试挑战下。

第一题解析:https://www.youtube.com/watch?v=50W_ntnPX0k

第二题解析:https://www.youtube.com/watch?v=VXFG1t_ksfI

第三题解析:https://www.youtube.com/watch?v=ASV1dZCuWGs

第四题解析:https://www.youtube.com/watch?v=WnZv3fdpFXo

第五题解析:https://www.youtube.com/watch?v=wfQkk9WktGE

第六题解析:https://www.youtube.com/watch?v=7h3gJfWnDoc

IMO第一题,大模型惨败

有网友表示,IMO试题为前沿模型提供了一个很好的测试集。

一般来说,IMO试题仅需要高中数学知识就够了,而且第一道题最简单,人类选手通常会在60分钟内完成。

那么,你能猜到,对于地表最强的LLM来说,做的如何?

经过一番测试,结果如下:

GPT-4:失败。即使指出错误,也无济于事。

GPT-4o:失败。即使指出错误,也无济于事。

Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确答案,但随后继续走上了错误的道路。

看来,大模型要走的路,还远着呢。

参考资料:

https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920

https://x.com/sytelus/status/1815203518913085900

0 阅读:10