GPT-4解出难倒陶哲轩奥数题？语言IQ已达152，但空间推理巨差

作者：新智元发布时间：2023-05-22

GPT-4

近日，一名外国小哥测出，GPT-4语言能力智商已达152，吊打绝大多数人类。好在，它的空间推理还不行。

GPT-4在语言能力上的智商，已经吊打人类！

最近，国外的一位小哥测试了GPT-4的智商，结果显示，它的语言智商已经达到了152。

而根据调查，人类的平均智商是90-109，单论语言智商的话，人类是妥妥地被GPT-4吊打了……

GPT-4的能力，我们此前早已耳熟能详。3月底，微软的一篇154页的论文，震惊全世界。

在这篇论文中，微软表示，GPT-4已经显现出了通用人工智能的火花，它可以被认为是通用人工智能的一个早期版本。

论文地址：https://arxiv.org/pdf/2303.12712.pdf

通过测试，微软的研究者证实：GPT-4不仅精通语言，还能在数学、编程、视觉、医学、法律、心理学等多样化和高难度的任务中表现出色，且无需特别提示。

最可怕的是，在所有这些任务中，GPT-4的表现都接近了人类水平，并且时常超过之前的模型。

下面，我们就来看看GPT-4在各方面能力上，哪些能吊打人类，哪些暂时还无法赶超我们。

为GPT-4量身打造IQ测试

首先，这位小哥上网搜索了一下免费的智商测试。

但他发现一个棘手的问题：这些智商测试，很多都是以图像的形式。

然而GPT-4，目前可以被认为还是一个「瞎子」+「聋子」，并没有读图能力。

怎么办呢？这位小哥随后意识到，肯定有专门为视力缺陷的人设计的智商测试。

他动手试了试，果然搜到了。然而，这种测试非常昂贵，需要花1500多刀，没法白嫖。

自己动手，丰衣足食。这位小哥干脆一不做二不休，自己上手，为GPT-4量身打造了一版智商测试。

难得倒陶哲轩，难不倒GPT-4

首先要测试的，是GPT-4的数学能力。

全世界最流行、最顶尖的数学测试是什么？自然就是国际奥数比赛。

世界上最伟大的数学家之一陶哲轩，就是在1986年参加的国际奥数比赛。

那一年，试题中的第6题，连他也解不出。

那GPT-4可以么？

小哥把这道题输给了GPT-4，结果是——它解出来了。

但是，我们并不能说，它就胜过了世界上最厉害的成年人数学家。

另外，它也无法证明孪生素数猜想。（要是能证明就有鬼了🤣）

小哥让GPT-4绘制一个方程式的坐标，也遭到了GPT-4的拒绝。

非常礼貌地恳求它，结果还是被婉拒了。

所以，GPT-4的极限到底在哪里呢？

这位小哥只能去查阅公开的文献。在OpenAI的官方论文中，GPT-4在SAT的数学考试中得分高于91%的人类，在其其他数学类考试中表现也很优异。

不善沟通的语言天才

接下来，小哥想测试一下GPT-4在人际关系智能（Interpersonal Intelligence），以及内省智能（Intrapersonal Intelligence）方面表现如何。

严谨的小哥先上网查了一下，何为人际关系智能——善于处理人际关系的人，他们能更好地理解他人，并和别人进行互动。这类人擅长评估情绪、动机、欲望，以及周围人的意图。

然后，他找了一篇SAT考试中的文章，将文章内容复制下来，把所有的和人物动机有关的问题也一股脑甩给了GPT-4。

GPT-4表现还算....出色？四个题对了三个。

然而，GPT-4却没有任何分析情绪的能力。

因为，按它自己的原话，它只是一个AI模型，并没有「自我」的概念。

那GPT-4的内省智能如何呢？

小哥表示，一个内省智能高的人，对自身优缺点有清醒的认知。

把这个当作prompt输入GPT-4，发现这模型对自己定位还是挺清晰的。

比方说，优点里有广泛的知识储备、反应迅速、多语能力、模式识别能力，以及可扩展性强等等。

而缺点包括缺乏个人经验、缺乏某些领域的知识、不太能理解上下文、文学解读、道德评判等等。

但小哥表示，这种认识程度还远远不够。总的来说，GPT-4的人际关系智能和内省智能，都一般。

小哥还给GPT-4测了一下口头语言的IQ测试，它得了152分。

对人类来说，这个分数意味着——你是个天才。

空间推理小试牛刀

而转到空间能力这一块，GPT-4的表现就不容乐观了。

本来，小哥想让GPT-4直接做一套空间推理的选择题。

但是，OpenAI未来才会慢慢开发GPT-4的识图功能。

在OpenAI发布的视频中，研究人员上传了这么一张图片，然后问GPT-4，如果把绳子剪短会怎么样。

GPT-4表示，那气球就会飞走了！

小哥和GPT-4下了把井字棋，通过文字输入控制走棋。

但GPT-4在深谙规则的情况下，耍赖了。

本来该小哥赢，让GPT-4帮自己在最下面一排的中间画一个圈三连。

GPT-4可倒好，直接把最上面一排的圈擦了，画了个自己的叉。作弊取胜。

ChatGPT：魔方？我不会啊

为了进一步测试GPT-4的空间理解能力，小哥祭出了大杀器——魔方。

要知道，对人类来说，魔方也是衡量一个人空间感的方法之一。

首先，因为GPT-4不能看图，所以要先想办法用文字描述魔方的状态。

熟悉魔方的朋友对下面这个图应该不会陌生。在公式中，我们常常会用若干字母，或字母加一个撇号来代表不同的操作。

一般魔方正对我们，不同的旋转对应不同的表达。就像下面这样。

小哥在视频中做了一个示范，确保GPT-4领会了这个意思。

然后，就要开始把GPT-4拉出来遛遛了！看看它到底会不会还原。

万事先从简单的开始。小哥第一步只是把魔方最上层向左拧了一下，看看GPT-4会不会还原。

这点难度还是难不倒GPT-4。小哥输入U这个操作（最上层向左拧），GPT-4也是很快给出了U’（U的反向操作）这个答案。

紧接着是UR，意思就是最上层左拧一次，最右边上拧一次。

GPT-4也很快给出了反向操作——R’U’。

接着就要上难度了！小哥开始彻底打乱魔方，总共十多步。

令人惊讶的是，GPT-4居然真的生成出结果了！

然而小哥定睛一看，GPT-4生成的复原方法，就是把所有打乱的步骤反过来来一遍。

看完直呼无语，这要你何用。

于是小哥发现这样做就是会出现这个问题。因为你输入打乱的方式，GPT-4必然在复原的时候反向操作。

问题的关键，就是不能让GPT-4知道这是怎么打乱的。

小哥很聪明，问了一下GPT-4，如果是你，你会怎么描述魔方的状态？

GPT-4采取了下图这样的方式：用不同的字母代替不同的颜色，把每一个面的颜色情况全部用字母表达出来。

这样就避免了打乱步骤这一个part。

这次经过尝试，只有第一次的小试牛刀成功了，也就是只打乱一次的结果。

GPT-4处理起简单问题真是毫不手软，可惜一复杂就趴窝了。

最后还生成出了下图这个结果——

小哥表示，这现实的魔方根本拧不成这样啊，GPT-4你在干什么？？

这个结果直接给GPT-4玩儿魔方的能力宣判了死刑。

除了倒推复原，GPT-4根本玩不转魔方。

两任总统的RAP对决，泰裤辣

最后，这位小哥还测了一波GPT-4的音乐能力。

咱们都知道，GPT-4会写诗。

既然如此，小哥就让GPT-4以Minecraft服务器中的特朗普和拜登的说唱大战为主题，写出rap词和旋律，还要make a beat。

小哥发现，最好的方式就是用ABC notation，因为GPT-4写不出五线谱。

所以，小哥让GPT-4用ABC notation写一个Boom bap beat，然后把这个beat输入到一个音乐网站里。

GPT-4写出的beat是这样的——

听起来没啥惊喜。

小哥希望挽救一下这个beat，于是换了一种乐器。把它下载成midi file，再上传到FL Studio。但不好的是，所有乐器都结合在一个音轨中了。

所以小哥让GPT-4给每个音轨一个单独的乐器文件。

成品一放，还挺惊艳：「yo！我是拜登，我来打破纪录，直截了当……」

接着，小哥下载了一个现成的beat，做成了拜登和川普的说唱battle——各位，请准备好尖叫吧。

总的来说，GPT-4已经在多方面吊打人类，如果在未来哪一天，它能克服视力和听力上的缺陷，人类的未来，可就真不好说了。

参考资料

https://www.youtube.com/watch?v=HXb9Azzhr1k

本文来自微信公众号“新智元”（ID：AI_era），作者：Aeneas 拉燕，36氪经授权发布。

近期资讯

晟斯莱德信息科技取得一种弯头型转速传感器专利，使得传感器与测量设备之间的连接线可以灵活弯曲

金融界2024年12月28日消息，国家知识产权局信息显示，晟斯莱德信息科技（郑州）有限公司取得一项名为“一种弯头型转速传感器”的专利，授权公告号CN222212795U，申请日期为2024年5月。

金融界 2024-12-28

杭州聚致生物科技取得核酸质谱分析系统专利，具有移动精度高等优点

金融界2024年12月28日消息，国家知识产权局信息显示，杭州聚致生物科技有限公司取得一项名为“核酸质谱分析系统”的专利，授权公告号CN222212788U，申请日期为2023年12月。

金融界 2024-12-28

楚雄变压器取得油浸式电力变压器湿度报警装置专利，有利于人们及时知晓变压器本体的运行异常

金融界2024年12月28日消息，国家知识产权局信息显示，云南省楚雄变压器有限责任公司取得一项名为“一种油浸式电力变压器湿度报警装置”的专利，授权公告号CN222212766U，申请日期为2024年3月。专利摘要显示，本实用新型提供一种油浸式电力变压器湿度报警装置。

金融界 2024-12-28

沈阳瑞科尔取得交通运输速度传感器用保护装置专利，避免速度传感器在防护罩内随意晃动被碰撞

金融界2024年12月28日消息，国家知识产权局信息显示，沈阳瑞科尔科技有限公司取得一项名为“一种交通运输的速度传感器用保护装置”的专利，授权公告号CN222212792U，申请日期为2024年5月。

金融界 2024-12-28

重庆奥百诺生物科技取得一种生物技术用生物标志物检测设备专利，减少生物提取液外泄浪费

金融界2024年12月28日消息，国家知识产权局信息显示，重庆奥百诺生物科技有限公司取得一项名为“一种生物技术用生物标志物检测设备”的专利，授权公告号CN222212783U，申请日期为2024年4月。

金融界 2024-12-28

方太取得微流控检测仪专利，能增快加样速度及避免多次加样繁琐问题

金融界2024年12月28日消息，国家知识产权局信息显示，宁波方太厨具有限公司取得一项名为“一种微流控检测仪”的专利，授权公告号CN222212781U，申请日期为2024年2月。

金融界 2024-12-28

重庆鉴星生物科技取得抓夹反应杯结构专利，提升了工作效率

金融界2024年12月28日消息，国家知识产权局信息显示，重庆鉴星生物科技有限公司取得一项名为“一种抓夹反应杯结构”的专利，授权公告号CN222212778U，申请日期为2024年4月。

金融界 2024-12-28

广州威绰取得一种基于霍尔传感器的便携式转速测试仪专利，有效避免使用不便的问题

金融界2024年12月28日消息，国家知识产权局信息显示，广州威绰商品检测技术服务有限公司取得一项名为“一种基于霍尔传感器的便携式转速测试仪”的专利，授权公告号CN222212794U，申请日期为2024年5月。

金融界 2024-12-28

苏州格锐思取得生物样品检测仪器检测承载台专利，实现检测仪器放置使用时的缓冲保护

金融界2024年12月28日消息，国家知识产权局信息显示，苏州格锐思生物科技有限公司取得一项名为“生物样品检测仪器检测承载台”的专利，授权公告号CN222212777U，申请日期为2024年1月。

金融界 2024-12-28

宁波方太取得一种微流控检测仪专利，具有体积小、方便安装、使用方便的优势

金融界2024年12月28日消息，国家知识产权局信息显示，宁波方太厨具有限公司取得一项名为“一种微流控检测仪”的专利，授权公告号CN222212780U，申请日期为2024年2月。

金融界 2024-12-28

GPT-4解出难倒陶哲轩奥数题？语言IQ已达152，但空间推理巨差

为GPT-4量身打造IQ测试

难得倒陶哲轩，难不倒GPT-4

不善沟通的语言天才

空间推理小试牛刀

ChatGPT：魔方？我不会啊

两任总统的RAP对决，泰裤辣

参考资料

推荐体验

相关资讯

大佬怎么用AI,陶哲轩与GPT-4的奇妙对话

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

“陶哲轩×GPT-4”，合写数学论文，数学大佬齐惊呼，LLM推理神助证明不等式定理

陶哲轩甩出调教GPT-4聊天记录，点击领取大佬的研究助理

陶哲轩：我用GPT-4辅助证明不等式定理，论文还会上传arXiv

近期资讯

晟斯莱德信息科技取得一种弯头型转速传感器专利，使得传感器与测量设备之间的连接线可以灵活弯曲

杭州聚致生物科技取得核酸质谱分析系统专利，具有移动精度高等优点

楚雄变压器取得油浸式电力变压器湿度报警装置专利，有利于人们及时知晓变压器本体的运行异常

沈阳瑞科尔取得交通运输速度传感器用保护装置专利，避免速度传感器在防护罩内随意晃动被碰撞

重庆奥百诺生物科技取得一种生物技术用生物标志物检测设备专利，减少生物提取液外泄浪费

方太取得微流控检测仪专利，能增快加样速度及避免多次加样繁琐问题

重庆鉴星生物科技取得抓夹反应杯结构专利，提升了工作效率

广州威绰取得一种基于霍尔传感器的便携式转速测试仪专利，有效避免使用不便的问题

苏州格锐思取得生物样品检测仪器检测承载台专利，实现检测仪器放置使用时的缓冲保护

宁波方太取得一种微流控检测仪专利，具有体积小、方便安装、使用方便的优势

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

GPT-4解出难倒陶哲轩奥数题？语言IQ已达152，但空间推理巨差

为GPT-4量身打造IQ测试

难得倒陶哲轩，难不倒GPT-4

不善沟通的语言天才

空间推理 小试牛刀

ChatGPT：魔方？我不会啊

两任总统的RAP对决，泰裤辣

参考资料

空间推理小试牛刀