ChatGPT 通过了顶尖大学的考试，比反 AI 更该做的是改考题

作者：爱范儿发布时间：2023-02-02

ChatGPT

新警告，老问题

当法学院学生在尝新玩 ChatGPT 时，应该没想过它转身就成了跟自己一起参加同一场考试的「同学」。

在刚过去的 1 月，明尼苏达大学法学院的 Jon Choi 教授和宾夕法尼亚大学沃顿商学院的 Christian Terwiesch 教授分别让 ChatGPT「做」了次自己课程的期末试题。

结果 ChatGPT 还真都通过了！

这意味着让 ChatGPT 再进化一会儿，以后我们就不需要人类律师和管理者了吗？

还是，这是一声敲响的警钟，提醒教育者们不要再把学生教得像 AI 一样了？

及格的背后：老师「放水」，全班垫底

在考过的两个专业里，ChatGPT 在法学院考的成绩比在商学院的差些，前者平均得分 C+，后者则能达到 B- 到 B 的成绩。

具体来说，ChatGPT 在沃顿完成的是 MBA（工商管理学硕士）「运营管理」科目的试题，每道题都需写出「推演过程」。

测试时，Terwiesch 教授把考试的原题输入到 ChatGPT 中，并对 ChatGPT 生成的回答进行打分。

总的来说，ChatGPT 在回答基础分析题时表现都很不错；数学则不太行，可能会算错一个小学难度的计算；而相对复杂的分析题，ChatGPT 就基本没辙。

例如，第一题考的就是对「管理瓶颈」概念的理解，并简单比较「生产过程」中哪个步骤效率最低，找出「瓶颈」。

这题回答教授直接打了 A+。

然而，当考题里的「生产过程」变得更复杂，需要处理的原料不只一种，涉及的设备有差异也有重叠时，ChatGPT 就算不出「管理瓶颈」了。

对于这题，ChatGPT 的推演过程虽然是错的，但却「完美绕过」错误推论，撞中了答案。

在算「接收站（receiving station）」效率时，ChatGPT 得出的结果是「300 桶/小时」。

这个数虽然是错的，但以这个数字来说，它的确也是分析过程中算出来效率最低的一环。

谁想到，ChatGPT 却「自己都不信自己」。

它没把这一环选为「瓶颈」，而是选了算出来效率为「600 桶/小时」的「干燥机（dryer）」环节为「瓶颈」 —— 选了个正确答案。

不过，虽然 Terwiesch 教授最后给 ChatGPT 的分数有 B 级，但他也有点「放水」了。

当 ChatGPT 回答出现错误时，Terwiesch 会向ChatGPT 提供针对性的提醒，然后再让它输出一次回答，并以这个「优化」结果来评分。

至于法学院的考试，ChatGPT 做了宪法、员工福利法、税法和侵权法这四个课程的期末试题。

主导这次测试的 Jon Choi 教授表示，在「盲改」的情况下，ChatGPT 这四科都及格了，但成绩基本都是全班垫底。

虽然 ChatGPT 的简答题比选择题做得更好，但简答题的回答质量却极为不稳定 —— 有时候答得可能比一般学生好（大多是法律条文默写和案例复述），然而一错起来（通常是要求学生用具体理论分析案例的题），分数通常都「错出新低」：

在面对法学院考试的最基本问题时，ChatGPT 都表现糟糕，例如识别潜在法律问题和在案例中深度分析和应用法律条文。

ChatGPT 那「不求理解，只会背书」的答题风格也能低分飘过专业考试，多少显示考题还是太依赖「死记硬背」了，ChatGPT 的表现显然也没法替代律师和管理者。

然而， 如果人类学生也大概这种水平，同样通过了考试，甚至毕业后去执业了，那是不是更有问题？

被批评多年的考试，ChatGPT 能逼出改变吗？

在 ChatGPT 惊艳登场前，卡内基梅隆大学教授 Danny Oppenheimer 就已提出质疑：在 Google 搜索时代，为什么大学考试还只侧重考学生对事实的重述？

Oppenheimer 指出，虽然有的教育者会反驳说，他们在课堂上讲解事实类信息时，也会分析这些信息的意义、论证和应用，但一到考卷上，立即就变回「背书就行」：

很多课程都是基于一个前提来构建的，那就是学生会通过观察老师以身作则式地去对事实进行分析、拓展和应用，学生自自然然就能发展出这一套技能 —— 这是一个非常值得怀疑的假设。

因此，Oppenheimer 建议课程从设置上就要直接反映出教育者希望学生最终学到的技能，结合新技术也很必要，如「在电脑辅助下做文学赏析」「如何和与你意见不合的人文明地沟通」。

考试可以结合事实性信息，但应侧重于学生的分析和应用能力。

另外，让学生去「预演」未来会遇到的场景也是练习技巧的直接方式，譬如让研究气候改变的学生来为大众策展一场气候相关展览。

现在来到 ChatGPT 时代，这个改变自然是显得更迫切，因为它的效率比搜索引擎更高，同时也更具迷惑性。

ChatGPT 除了给学生省下翻看一页页搜索结果的时间外，还以够用的语言结构能力生成流畅的文段，即便事实准确度非常可疑。

有趣的是，ChatGPT 也像一面镜子。

一方面，它让人想起应试教育中的作文和简答题总像是无休止的「模仿」，在标准范式下填充，就跟 ChatGPT 一样。

另一方面，靠「吃」大数据和由人类真实反馈「调教/校」成长而来，ChatGPT「一本正经瞎扯」的内容也特别像我们生活里会遇到的日常。

以至于沃顿商学院的 Terwiesch 教授都超惊喜，觉得 ChatGPT 能给未来的管理者们带来极佳的学习素材 ——

商业世界里本来就充满了一本正经的一派胡言，就跟 ChatGPT 说的话一样，商学院学生正好能用它来做鉴别练习！

你我都知，需要学下这个技能的远不止商学院学生。

然而，美国高等教育界从搜索引擎流行就开始有改革的讨论，但到了今天仍然进步有限，ChatGPT 的诞生能逼它跑得快些吗？我们也只能继续观察。

人类的，类人的

每当人类尝试「再造」一些东西的时候，总会暴露出我们对事物的认知限制，同时也帮助我们去了解自我。

尝试在太空中「再造」食物时，研究人员发现食物真不能只被降至「营养够」。

要保持太空人们身心健康，色香味口感声音无一不影响感知，环境要讲究，一起吃饭的人也非常重要。

当我们拥有一个能「像人一样」流畅说话的 ChatGPT 时，人们也开始发现人类语言不只关于「文字」。

一个只由语言素材训练的系统永远都不会接近人类智能，即便它从现在就开始训练，训练到宇宙毁灭都不行。

研究 AI 哲学的 Jacob Browning 和图灵奖得主 Yann Le Cun 在联合撰写的文章中指出。

他们认为，文字作为一种高度浓缩的抽象符号，人类能理解的基础在于我们拥有丰富的非语言共识和个人体验。这也意味着文字总可能会带来误读和歧义。

语言是我们沟通的工具，但教育者对学生的理解和评估，不应只限于卷子上。

和先进的大型语言模型打交道，显现出我们单从语言中能得到的东西是多么有限。

本文来自微信公众号 “爱范儿”（ID：ifanr），作者：方嘉文，36氪经授权发布。

近期资讯

常润股份获得实用新型专利授权：“一种卧式千斤顶多功能手柄装置”

证券之星消息，根据天眼查APP数据显示常润股份（603201）新获得一项实用新型专利授权，专利名为“一种卧式千斤顶多功能手柄装置”，专利申请号为CN202421145236.X，授权日为2024年12月27日。

证券之星 2024-12-27

小i机器人(AIXI.US)盘前涨超27% 公司专注于认知智能的自主研发和产业化应用

周四，小i机器人(AIXI.US)盘前涨超27%，报6.70美元。据了解，小i机器人是一家主要通过其境内实体子公司上海智臻智能网络科技股份有限公司运营。

金融界 2024-12-26

专为安全而生！讯飞旗舰级录音笔S8离线版评测：政企单位的优选录音神器

讯飞AI录音笔S8离线版从源头保障数据安全，不搭载SIM卡、WiFi、蓝牙等任何无线通信模块，完全隔绝外界网络，将录音和转文字功能严格限定在本地操作，避免信息上传云端所带来的潜在泄密风险，且所有的录音文件及转文字内容均直接存储在本地设备，真正做到了敏感信息不外泄，是政企人士的值得信赖的办公助手。

驱动之家 2024-12-26

石头科技获得实用新型专利授权：“清洗盘和清洁基站”

证券之星消息，根据天眼查APP数据显示石头科技（688169）新获得一项实用新型专利授权，专利名为“清洗盘和清洁基站”，专利申请号为CN202323657407.5，授权日为2024年12月27日。专利摘要：本实用新型提供了一种清洗盘和清洁基站，属于扫地机自动清洁技术领域，用于解决清洗盘表面易残留脏污的问题。

证券之星 2024-12-27

当前行业内客户总量有限赛目科技“四闯”港股IPO

近日，专注于智能网联汽车（ICV）仿真测试技术的北京赛目科技股份有限公司（以下简称赛目科技）第四次递表港交所，再度冲刺IPO。相比前三次，此次赛目科技已在中国证监会进行境外上市备案。2021~2023年及2024年上半年（以下简称报告期），源自前五大客户的收入分别占赛目科技总收入的93.4%、67.2%、55.8%、76.1%。

每日经济新闻 2024-12-26

掌握Photoshop去除图片背景的实用技巧与步骤指南

在数字化时代，处理图片已经成为我们日常生活中的一部分。无论是为了社交媒体的美化，还是为了工作上的需要，去除图片背景的技能都是非常实用的。虽然初看起来可能有点复杂，但只要掌握了几个关键步骤，你会发现这其实并没有想象中那么难。

新报观察 2024-12-27

京东方独供一加 Ace 5 系列手机屏幕

IT之家12月26日消息，一加Ace5系列手机今日正式发布，系列新机分别搭载高通骁龙8Gen3/至尊版处理器，配备旗舰同款索尼IMX906主摄，售价2299/3399元起（12GB+256GB）。京东方官方今日发文认领了一加Ace5系列手机屏幕，称系列新机搭载由京东方独供的6.78英寸1.5K120Hz高刷OLED屏幕。

IT之家 2024-12-26

什么值得买上线“微信送礼”专题：强化礼遇场景，服务送礼需求

12月26日，“什么值得买”上线“微信送礼贴心小助手”专题（以下简称“送礼专题”），旨在梳理好礼清单，结合近期爆火的微信小店灰度测试的“送礼物”功能，在“双旦”礼遇季来临之际，帮助更多网络消费者解决送礼决策难题。

砍柴网 2024-12-26

中国科大揭示火星核幔分异之谜：远超预期的高温高压环境塑造红色星球

12月26日消息，中国科学技术大学李云国教授团队宣布取得一项重要研究突破，相关研究成果已于12月1日发表在《科学通报》上。研究团队利用第一性原理自由能计算，揭示了火星内核和地幔分离（核幔分异）的过程，并发现这一过程发生在远高于先前估计的高温高压环境下。这项研究对理解火星的内部结构和长期演化，乃至其他类地行星的演化，都具有重大意义。

IT之家 2024-12-26

奖励100万元！华为发布两大难题，启动全球征集

12月26日，华为正式面向全球启动2024奥林帕斯奖悬红难题征集，这是华为公司第五年举办该全球赛事。今年发布的两大难题，分别为每bit极致性价比的存储技术和面向AI时代的新型数据底座。其中，难题一继续在每bit极致性价比的存储技术方向上深入探索介质、介质应用创新以及大模型的无损压缩技术。

南方都市报 2024-12-26

ChatGPT 通过了顶尖大学的考试，比反 AI 更该做的是改考题

及格的背后：老师「放水」，全班垫底

被批评多年的考试，ChatGPT 能逼出改变吗？

人类的，类人的

推荐体验

相关资讯

ChatGPT 勉强通过了法律与商业研究生考试

火出天际的Chatgpt，这次几乎通过了美国执业医师执照考试！

未来如何防止AI作弊！ChatGPT通过了法律和商业研究生考试

啊啊啊，申请的百度文心一言测试，通过通过了！

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

近期资讯

常润股份获得实用新型专利授权：“一种卧式千斤顶多功能手柄装置”

小i机器人(AIXI.US)盘前涨超27% 公司专注于认知智能的自主研发和产业化应用

专为安全而生！讯飞旗舰级录音笔S8离线版评测：政企单位的优选录音神器

石头科技获得实用新型专利授权：“清洗盘和清洁基站”

当前行业内客户总量有限赛目科技“四闯”港股IPO

掌握Photoshop去除图片背景的实用技巧与步骤指南

京东方独供一加 Ace 5 系列手机屏幕

什么值得买上线“微信送礼”专题：强化礼遇场景，服务送礼需求

中国科大揭示火星核幔分异之谜：远超预期的高温高压环境塑造红色星球

奖励100万元！华为发布两大难题，启动全球征集

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响