文 | Blink162、Congerry
我们对GPT-4的能力预期还是太低了!
在用了“阉割前版”的GPT-4后,华人数学家陶哲轩表示:人类对信息技术的期待全部需要校准。
所谓阉割前版就是和微软154页《AGI的火花》论文里同款,未经过安全训练但能力更强的版本。
用了此版本的GPT-4,陶哲轩还大胆预测到了2026年,AI可以成为数学研究中值得信赖的共同作者。
而GPT-4似乎也在验证这一点:近日,GPT-4满分通过了MIT(美国麻省理工大学)本科数学考试。
「数学天才」陶哲轩使用GPT-4后:我们都该革新对技术的预期
陶哲轩是知名的华裔数学天才,13岁获得国际数学奥林匹克竞赛数学金牌;16岁获得弗林德斯大学学士学位,17岁获得弗林德斯大学硕士学位,21岁获得普林斯顿大学博士学位。
2006年31岁时获得数学界几大顶级奖项:菲尔茨奖、拉马努金奖和麦克阿瑟天才奖。
前几日,这位数学天才自爆称,在GPT-4发布之前就从微软那里获得了访问资格。
陶哲轩也将体验心得总结成了一篇文章《拥抱变化并且重新设定期望值》,上传到微软的官方社区。
他在文章中提到在过去的几十年里,人们对于信息技术有了几分预期,主要包括以下几点:
· 硬件和软件将会以摩尔定律的速度进行演进(诸如性能、用户体验和可靠性等指标),然后转向更渐进式地演进;
· 单个软件工具可以可靠地生成高质量的输出,但输入数据必须是最高质量的,并按照工具要求的特定方式进行仔细地格式化;
· 工具越高级,规范和边界情况就越复杂,除非制定设计良好的标准,否则工具之间的互操作性(尤其是不同供应商之间的互操作性)将成为一个重要的技术挑战。
· 人类将做出所有关键的决策;软件工具通过成功或失败地执行人类指示的命令来影响决策过程。
而GPT-4等生成式AI的出现将会改变人类以上这些固有预期,当然,放弃使用AI的人除外。
因为陶哲轩让GPT-4生成数学证明,然而发现过去阅读人类作品的经验完全不适用了。
陶哲轩认为,2023年的AI已经可以为从业数学家提供有建设性的提示和有前景的线索,并积极参与决策过程。那么他预计,到了2026年的AI(如果使用得当)将成为数学研究领域以及许多其他领域值得信赖的合作作者。
到最后,这位数学天才点破了一点:AI的发展,以及和人类社会的融合程度,不仅取决于技术的发展,还取决于现有人类制度和实践的适应程度。
GPT-4满分通过 MIT EECS 和数学本科考试,大模型已经恐怖如斯?
人类对AI的预期低了,近两天在网上疯狂流传的一篇关于 GPT-4 满分通过 MIT EECS 和数学本科考试的论文似乎也印证了这一点。
论文地址:https://arxiv.org/abs/2306.08997
论文收集了一个全面的数据集,包含了4550个来自MIT数学和EECS专业本科必修课程的问题和解决方案,涵盖了问题集、期中考试和期末考试等内容,横跨8个麻省理工学院数学和EECS本科生学位课程:
然后,让GPT-4、GPT-3.5、StableVicuna-13B和LLaMA-30B/60B四个最先进的大语言模型完成这个数据集中随机的228道题目。
结果发现GPT-4在经过提示词工程后,能够在不包含图像和已有解决方案的测试集上达到100%的解题率,而GPT-3.5只能解决三分之一的问题。
注:不同的提示词技术(few-shot、chain of thought、self-critique和expert prompting)对大语言模型解题能力的影响,越多的prompting技术越能够提高模型的成功率。
到此为止,GPT-4表现完美。
But,这篇论文也至少存在以下两个问题:
论文没有公开GPT-4和GPT-3.5的训练数据集,无法排除数据集中的问题和解决方案已经在大语言模型的训练集中出现过的可能性,这会影响模型的泛化能力和评估的公平性。
注:为了防止我们的数据集被作为LLM培训语料库的一部分,数据集将不会被公开,但会通过数据使用的方式向研究人员提供。
论文使用GPT-4自动对模型的响应进行评分,这可能导致自我评分的偏差和不可信度,因为GPT-4可能会倾向于给自己或与自己相似的模型更高的分数。
注:使用GPT-4来自动对答案进行分级
这两个问题也直接导致GPT-4表现失实......
数据集存在问题+“GPT-4卖瓜自卖自夸”成就满分神话
论文发表后不久,同样来自 MIT 的三位学生就发现了这篇论文。经过研究,他们发现论文中的数据集存在问题,一部分已经被污染。
无法解决的问题(约占测试集的 4%),比如要求运行一些特定的命令或程序,或者要求画出一些图形或图表,这些问题对于大语言模型来说是不合理的,也不符合数据集的目标。
重复的问题(约占测试集的 5% ),比如同一个课程中的不同考试或作业中出现了相同或类似的问题,这些问题会影响数据集的多样性和难度,也会给大语言模型带来额外的优势。
少样本示例中的信息泄露,比如问题中包含了答案的关键词或提示,或者问题和答案之间存在明显的对应关系,这些问题会降低数据集的质量和难度,也会让大语言模型更容易猜出正确答案。
另外,数据集中有一些问题的自动打分存在错误,比如给出了错误或不完整的答案,或者没有考虑到答案的多样性和等价性,这些问题会影响数据集的准确性和可靠性,也会导致大语言模型的评估结果出现偏差。
根据他们在数据集上完成的零样本 GPT-4 测试,对96个问题进行手动评分后,发现 32% 错误,58% 正确,剩下的无效或基本正确。
尽管随着测试继续零样本 GPT-4 的准确率能达到 62.5% ,但结果显然和满分相差甚远。
针对该论文失实,三人表示这篇论文反映了最近人工智能研究中一个普遍存在的问题。由于该领域发展迅速,发现新知识的时间越来越短,这导致了一些简化和妥协。
一个尤其引起关注的问题是利用类似GPT-4这样的语言模型来评价其他模型的准确性。这种技术虽然有一定的作用,但它的结论不能过分夸张,也不能视为绝对真理。
三人也澄清,批评的目的是为了提高研究的方法和严谨性,而不是否定大语言模型在数学领域的能力和潜力。
很明显,GPT-4等生成式AI工具将颠覆各种工作流程,使人类对信息技术的期待需要重新校准,但这些AI工具存在的局限性和可能带来的风险同样不可忽视。
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~