GPT-4满分通过MIT本科考试！数学天才陶哲轩直言：人类对AI的预期应该全部更新

作者：头部科技发布时间：2023-06-20

GPT-4 微软

文 | Blink162、Congerry

我们对GPT-4的能力预期还是太低了！

在用了“阉割前版”的GPT-4后，华人数学家陶哲轩表示：人类对信息技术的期待全部需要校准。

所谓阉割前版就是和微软154页《AGI的火花》论文里同款，未经过安全训练但能力更强的版本。

用了此版本的GPT-4，陶哲轩还大胆预测到了2026年，AI可以成为数学研究中值得信赖的共同作者。

而GPT-4似乎也在验证这一点：近日，GPT-4满分通过了MIT（美国麻省理工大学）本科数学考试。

「数学天才」陶哲轩使用GPT-4后：我们都该革新对技术的预期

陶哲轩是知名的华裔数学天才，13岁获得国际数学奥林匹克竞赛数学金牌；16岁获得弗林德斯大学学士学位，17岁获得弗林德斯大学硕士学位，21岁获得普林斯顿大学博士学位。

2006年31岁时获得数学界几大顶级奖项：菲尔茨奖、拉马努金奖和麦克阿瑟天才奖。

前几日，这位数学天才自爆称，在GPT-4发布之前就从微软那里获得了访问资格。

陶哲轩也将体验心得总结成了一篇文章《拥抱变化并且重新设定期望值》，上传到微软的官方社区。

他在文章中提到在过去的几十年里，人们对于信息技术有了几分预期，主要包括以下几点：

· 硬件和软件将会以摩尔定律的速度进行演进（诸如性能、用户体验和可靠性等指标），然后转向更渐进式地演进；

· 单个软件工具可以可靠地生成高质量的输出，但输入数据必须是最高质量的，并按照工具要求的特定方式进行仔细地格式化；

· 工具越高级，规范和边界情况就越复杂，除非制定设计良好的标准，否则工具之间的互操作性（尤其是不同供应商之间的互操作性）将成为一个重要的技术挑战。

· 人类将做出所有关键的决策；软件工具通过成功或失败地执行人类指示的命令来影响决策过程。

而GPT-4等生成式AI的出现将会改变人类以上这些固有预期，当然，放弃使用AI的人除外。

因为陶哲轩让GPT-4生成数学证明，然而发现过去阅读人类作品的经验完全不适用了。

陶哲轩认为，2023年的AI已经可以为从业数学家提供有建设性的提示和有前景的线索，并积极参与决策过程。那么他预计，到了2026年的AI（如果使用得当）将成为数学研究领域以及许多其他领域值得信赖的合作作者。

到最后，这位数学天才点破了一点：AI的发展，以及和人类社会的融合程度，不仅取决于技术的发展，还取决于现有人类制度和实践的适应程度。

GPT-4满分通过 MIT EECS 和数学本科考试，大模型已经恐怖如斯？

人类对AI的预期低了，近两天在网上疯狂流传的一篇关于 GPT-4 满分通过 MIT EECS 和数学本科考试的论文似乎也印证了这一点。

论文地址：https://arxiv.org/abs/2306.08997

论文收集了一个全面的数据集，包含了4550个来自MIT数学和EECS专业本科必修课程的问题和解决方案，涵盖了问题集、期中考试和期末考试等内容，横跨8个麻省理工学院数学和EECS本科生学位课程：

然后，让GPT-4、GPT-3.5、StableVicuna-13B和LLaMA-30B/60B四个最先进的大语言模型完成这个数据集中随机的228道题目。

结果发现GPT-4在经过提示词工程后，能够在不包含图像和已有解决方案的测试集上达到100%的解题率，而GPT-3.5只能解决三分之一的问题。

注：不同的提示词技术（few-shot、chain of thought、self-critique和expert prompting）对大语言模型解题能力的影响，越多的prompting技术越能够提高模型的成功率。

到此为止，GPT-4表现完美。

But，这篇论文也至少存在以下两个问题：

论文没有公开GPT-4和GPT-3.5的训练数据集，无法排除数据集中的问题和解决方案已经在大语言模型的训练集中出现过的可能性，这会影响模型的泛化能力和评估的公平性。

注：为了防止我们的数据集被作为LLM培训语料库的一部分，数据集将不会被公开，但会通过数据使用的方式向研究人员提供。

论文使用GPT-4自动对模型的响应进行评分，这可能导致自我评分的偏差和不可信度，因为GPT-4可能会倾向于给自己或与自己相似的模型更高的分数。

注：使用GPT-4来自动对答案进行分级

这两个问题也直接导致GPT-4表现失实......

数据集存在问题+“GPT-4卖瓜自卖自夸”成就满分神话

论文发表后不久，同样来自 MIT 的三位学生就发现了这篇论文。经过研究，他们发现论文中的数据集存在问题，一部分已经被污染。

无法解决的问题（约占测试集的 4%），比如要求运行一些特定的命令或程序，或者要求画出一些图形或图表，这些问题对于大语言模型来说是不合理的，也不符合数据集的目标。

重复的问题（约占测试集的 5% )，比如同一个课程中的不同考试或作业中出现了相同或类似的问题，这些问题会影响数据集的多样性和难度，也会给大语言模型带来额外的优势。

少样本示例中的信息泄露，比如问题中包含了答案的关键词或提示，或者问题和答案之间存在明显的对应关系，这些问题会降低数据集的质量和难度，也会让大语言模型更容易猜出正确答案。

另外，数据集中有一些问题的自动打分存在错误，比如给出了错误或不完整的答案，或者没有考虑到答案的多样性和等价性，这些问题会影响数据集的准确性和可靠性，也会导致大语言模型的评估结果出现偏差。

根据他们在数据集上完成的零样本 GPT-4 测试，对96个问题进行手动评分后，发现 32% 错误，58% 正确，剩下的无效或基本正确。

尽管随着测试继续零样本 GPT-4 的准确率能达到 62.5% ，但结果显然和满分相差甚远。

针对该论文失实，三人表示这篇论文反映了最近人工智能研究中一个普遍存在的问题。由于该领域发展迅速，发现新知识的时间越来越短，这导致了一些简化和妥协。

一个尤其引起关注的问题是利用类似GPT-4这样的语言模型来评价其他模型的准确性。这种技术虽然有一定的作用，但它的结论不能过分夸张，也不能视为绝对真理。

三人也澄清，批评的目的是为了提高研究的方法和严谨性，而不是否定大语言模型在数学领域的能力和潜力。

很明显，GPT-4等生成式AI工具将颠覆各种工作流程，使人类对信息技术的期待需要重新校准，但这些AI工具存在的局限性和可能带来的风险同样不可忽视。

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~

近期资讯

畜禽粪污资源化利用方式有哪些?覆膜堆肥技术真的实用吗?

畜禽养殖过程中产生的粪便往往伴随着强烈的异味，并且其直接利用效率相对较低。许多养殖场在未进行适当处理的情况下，将这些粪便直接排放到周边的水渠和土地上，这不仅使得周边环境弥漫着恶臭，还造成了严重的环境污染。对于大型养殖场而言，由于粪便处理不当的问题更为突出，往往导致更为严重的环境污染和资源的极大浪费。我国作为畜牧大国，随着畜禽养殖规模的扩展，有机粪肥利用成为一大难题。①有机肥市场发展潜力巨大，但没有严格明确的条款约束，导致市场混乱且不规范。②畜禽粪污有机肥行业的技术发展相对滞后，核心技术缺乏，使得化肥利用率

中海环境 2024-12-25

MTK6765核心板_MT6765安卓核心板参数_联发科MTK模块开发

MTK6765安卓核心板是一款创新的高性能硬件，基于联发科的前沿八核处理平台精心设计而成。该核心板搭载的MTK6765 CPU采用先进的12纳米制造工艺，拥有八个核心，其中四个CORTEX-A53核心的主频可达2.3GHz，另四个CORTEX-A53核心则主频为1.8GHz。这种强大的架构使得其在处理能力上表现尤为突出，适合多种应用需求。 [图片] 在内存和存储方面，MTK6765核心板提供了灵活的配置选项，用户可以选择2GB+16GB、4GB+64GB和6GB+128GB的组合，支持NandFlash和

深圳市智物通讯科技 2024-12-25

管报经分，助力企业构筑管理大脑

自2014年《财政部关于全面推进管理会计体系建设的指导意见》（财会〔2014〕27号）发布以来，我国管理会计体系建设取得明显成效。2024年12月16日财政部发布《关于全面深化管理会计应用的指导意见》财会〔2024〕22 号（以下简称《指导意见》），对新时代下管理会计的发展提出了新的目标和要求。本文将在管理会计的核心应用“管报经分”侧进行原文解读，帮助读者梳理指导意见核心要义，聚焦管报经分，携手为全面深化管理会计特别是管报经分的应用、推动经济社会高质量发展合力共进！原文：推动现代信息技术在管理会

用友 2024-12-25

佰师网：公务员备考经验分享，成功考生的备考心得

在公务员考试的激烈竞争中，每一位考生都渴望脱颖而出，实现自己的职业梦想。作为一名成功上岸的公务员考生，我愿意分享我的备考经验，希望能为正在备考路上的你提供一些启示和帮助。一、明确目标，制定计划首先，明确自己的目标至关重要。公务员职位众多，不同岗位的考试内容和难度各有差异。因此，在备考初期，我就根据自己的兴趣和职业规划，锁定了目标岗位，并详细了解了该岗位的考试要求、历年真题及分数线等信息。随后，我制定了详细的学习计划，包括每日的学习任务、每周的复习进度以及每月的模拟测试安排，确保每一步都朝着目标稳步前进

佰师网 2024-12-25

用友 2024-12-25

中国太保产险与用友举行战略合作协议签署仪式

2024年12月20日，中国太保产险与用友在北京举行战略合作协议签署仪式。双方将充分发挥资源及产业优势，在产业数字金融、数智化转型、信创业务、保险业务、战略互信及探索合作领域深度融合，为双方转型升级发展注入新动能。中国太保产险党委书记、总经理陈辉、总经理助理、北京分公司总经理武博，用友网络总裁陈强兵、友太安总裁张谦共同出席仪式并见证协议签署，中国太保产险总经理助理叶明满与用友金融董事兼总裁郑海伟代表双方签署了战略合作协议。此次战略合作标志着双方在数字化时代迈出重要一步，双方将充分发挥各自专长，形

用友 2024-12-25

AI设计技能课，涵盖comfyui、krita等软件教学，多领域，打造设计高手。

100_入门课程学习方法介绍.mp4101_1工作实操-线稿出图全流程.mp4102_第31课：工作实操-景观建筑毛坯出图全流程.mp4103_PF-如何导入CAD.mp4104_PF-CAD提取线条方法.mp4105_PF-平面插件配合CAD使用.mp4106_设计师自媒体-流量产品变现逻辑.mp4107_设计师自媒体-定位-IP-人设之间的区别.mp4108_设计师自媒体-如何寻找爆款选题.mp410_新同学领取福利~.mp411_第一课：ComfyUI基础介绍.mp412_第二课：ComfyUI安装

凌零网创 2024-12-25

精密空调—怎么知道精密空调制冷剂是否充足？

为确保精密空调系统的正常运行及高效制冷效果，定期检测精密空调制冷剂是否充足至关重要。下面简单聊一下如何检测精密空调制冷剂是否充足。检测精密空调制冷剂的准备工作： 1、安全防护：佩戴好个人防护装备，如安全眼镜、手套等，确保操作过程中的安全。 2、工具准备：准备好制冷剂压力表、温度计、制冷剂充注工具等必要设备。 3、系统检查：在检测精密空调制冷剂前，先对精密空调进行全面的外观检查，确保无泄漏点及异常现象。精密空调制冷剂压力检测： 1、连接压力表：将制冷剂压力表连接到精密空调的制冷剂充注口上，确保连接紧密无

汇智天源 2024-12-25

GPT-4满分通过MIT本科考试！数学天才陶哲轩直言：人类对AI的预期应该全部更新

推荐体验

相关资讯

GPT-4满分通过MIT本科数学考试，这套提示词火了

GPT-4满分通过MIT本科数学考试！这套提示词火了｜GGView

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

GPT-4满分通过MIT本科数学考试！却遭同门质疑“作弊”，数据集本身就有问题

陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准

近期资讯

畜禽粪污资源化利用方式有哪些?覆膜堆肥技术真的实用吗?

MTK6765核心板_MT6765安卓核心板参数_联发科MTK模块开发

管报经分，助力企业构筑管理大脑

佰师网：公务员备考经验分享，成功考生的备考心得

统一精准把握市场，开启绿色发展新征程

山东选调生面试班深度测评，真的太实在了

签约！中国电信携手用友招聘云，让人才招募跑出5G速度

中国太保产险与用友举行战略合作协议签署仪式

AI设计技能课，涵盖comfyui、krita等软件教学，多领域，打造设计高手。

精密空调—怎么知道精密空调制冷剂是否充足？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响