2022 年初,当泰勒·韦伯(Taylor Webb)尝试 GPT-3 时,他被 OpenAI 的大型语言模型所能做的事情惊呆了。这个人工智能模型依靠预测下一个单词来生成大段的文字内容。
虽然是预测式的,但它对韦伯提出的许多抽象问题给出了正确的答案,例如你在智商测试中遇到的那类问题。“我真的对它解决这些问题的能力感到震惊,”他说,“它完全颠覆了我的期待。”
韦伯是美国加州大学洛杉矶分校的心理学家,主要研究人和计算机解决抽象问题的不同方式。他习惯于构建具有特定推理能力的神经网络。但 GPT-3 似乎自带了推理能力。
(来源:STEPHANIE ARNETT/MITTR)
上个月,韦伯和他的同事在 Nature 杂志上发表了一篇论文,他们在论文中描述了 GPT-3 通过各种测试的能力,这些测试旨在评估使用类比来解决问题(又称为类比推理)。
在其中一些测试中,GPT-3 的成绩比一群本科生还要好。韦伯说:“类比是人类推理的核心。我们认为,这是任何类型的机器智能都需要展示的主要能力之一。”
韦伯的研究所展示的只是大型语言模型的一大堆出众能力中的一个。例如,当 OpenAI 在 2023 年 3 月份推出 GPT-3 的下一代 GPT-4 时,该公司发布了一份令人瞠目的专业和学术评估成绩单,声称其新的大型语言模型取得了优异成绩,包括几十次高中考试和律师资格考试。OpenAI 后来与微软合作,证明 GPT-4 可以通过部分美国医学执照考试。
多名研究人员声称,大型语言模型可以通过旨在识别人类某些认知能力的测试,从思维链推理(一步一步解决问题)到思维理论(猜测他人的想法)。
这些结果催生了一系列的炒作,宣称人工智能很快将取代教师、医生、记者和律师一类的白领工作。图灵奖得主、“深度学习三巨头”之一的杰弗里·辛顿(Geoffrey Hinton)指出,GPT-4 显然有能力将想法串在一起,这是他现在害怕自己帮助创造的技术的原因之一。
但有一个问题是,对于这些结果的真正含义,人们没有达成一致。有些人被这些成绩背后的类人智慧所迷惑,也有人完全不相信。
以色列巴伊兰大学的计算机科学家纳塔利·沙皮亚(Natalie Shapira)说:“目前大型语言模型的评估技术有几个关键问题。这造成了一种错觉,使得我们对其能力的认识被夸大了。”
这就是为什么越来越多的研究人员,包括计算机科学家、认知科学家、神经科学家和语言学家,希望彻底改变评估方式,呼吁进行更严格、更详尽的评估。一些人认为,用测试人类的试题去评估机器,这种做法是错误的,应该抛弃。
美国新墨西哥州圣达菲研究所的人工智能研究员米兰尼·米切尔(Melanie Mitchell)说:“从人工智能诞生之初,人们就一直在对机器进行人类智力测试,比如智商测试等等。这背后的问题是,当你用这些方法测试机器时,它的意义是什么?这与测试人类的意义不同。”
“有很多拟人化的现象正在出现,”她说,“这让我们在思考这些系统以及测试它们时带上了滤镜。”
随着对人工智能技术的希望和担忧达到了前所未有最高水平,我们必须明确知道大型语言模型能做什么和不能做什么。
如何解释
围绕大型语言模型测试的大多数问题,都可以归结为如何解释结果的问题。
为人类设计的评估,如高中考试和智商测试,在很多方面都遵从了一些预设和假设。当人们得分很高时,就可以放心地假设他们拥有测试所衡量的知识、理解或认知技能。
实际上,这种假设只适用于此。学业考试并不总是反映学生的真实能力。而智商测试衡量的是一组特定的技能,而不是整体智力。这两种评估方式都有利于擅长这类评估的人。
但是,当一个大型语言模型在这样的测试中得分很高时,我们根本不清楚衡量的是什么。是真正理解的证据吗?还是愚蠢的统计游戏?亦或是死记硬背?
DeepMind 高级研究科学家劳拉·威汀格(Laura Weidinger)说:“开发测试人类思维的方法有着悠久的历史。由于大型语言模型产生的文本看起来很像人类生成的,人们很容易认为人类思维测试也可以用来评估它们。但事实并非如此:人类思维测试依赖于许多可能不适用于大型语言模型的假设。”
韦伯也意识到了类似的问题。“我有同感,”他说。他指出,尽管 GPT-3 在的某些测试成绩比本科生好,但在其他测试中却产生了荒谬的结果。例如,它没有通过发展心理学家给小孩子进行的一个关于实物的类比推理测试。
在这项测试中,韦伯和他的同事给 GPT-3 讲了一个精灵可以在两个瓶子之间转移珠宝的故事,然后问它如何使用纸板和纸管等物体将口香糖球从一个碗转移到另一个碗。
这个故事暗示了解决问题的方法。研究人员在论文中写道:“GPT-3 大多提出了精心设计,但机械上毫无意义的解决方案,有许多无用的步骤,却没有给出明确的机制来在两个碗之间转移口香糖。”
韦伯说:“这是孩子们很容易解决的问题。这些系统真正不擅长的地方往往涉及到对现实世界的理解,比如基本物理或社会互动,这些都是人们的第二天性。”
那么,我们如何理解一台通过律师资格考试,但在学前班表现不及格的机器呢?像 GPT-4 这样的大型语言模型是根据从互联网上获取的大量文字进行训练的:书籍、博客、小说、技术报告、社交媒体帖子等等。很可能过去的考试题也被抓取了。一种可能性是,像 GPT-4 这样的模型在训练数据中看到了如此多的专业考试和学术测试,以至于它们学会了自动完成答案。
韦伯说,很多这样的测试,在网上都能找到问题和答案:“几乎可以肯定的是,其中有许多都存在于 GPT-3 和 GPT-4 的训练数据中,所以我认为我们真的无法得出太多结论。”
OpenAI 表示,它进行了检查,以确认其对 GPT-4 的测试不包含出现在训练数据中的文本。在与微软的合作中,OpenAI 使用付费测试题来确保 GPT-4 的训练数据中没有包含这些问题。但这样的预防措施并不是万无一失的:GPT-4 仍然可以看到类似的测试题。
当机器学习工程师贺拉斯·贺(Horace He,音译)在编程比赛网站 Codeforces 上测试 GPT-4 时,他发现 GPT-4 在 2021 年之前发布的编程测试中得分为 10/10,但在 2021 年之后发布的测试中得了 0 分。
其他人也注意到,使用 2021 年之后的考试题,GPT-4 的成绩就会下降。这是因为该模型的训练数据只包括 2021 年之前收集的文字,一些人认为,这表明大型语言模型展示的只是一种记忆力,而不是智力。
为了在实验中避免这种可能性,韦伯设计了一套全新类型的测试。他说:“我们真正感兴趣的是,这些模型能否应对这些新式问题。”
韦伯和同事采用了一种测试类比推理的方法,称为瑞文推理测验(Raven’s Progressive Matrices)。这些测试由一张图像组成,该图像包括了一系列并排或上下排列的形状。挑战在于找出给定形状系列中的规律,并将其应用于新的形状。该测验用于评估幼儿和成人的非语言推理,在智商测试中很常见。
研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这确保了测试不会出现在任何训练数据中,韦伯说:“我从零开始创建了这个数据集。我之前从来没有听说过这样的东西。”
米切尔对韦伯的工作印象深刻。“我觉得这篇论文很有趣,也很有煽动性,”她说,“这是一项很好的研究。”但她有所保留。米切尔开发了自己的类比推理测试,名为 ConceptARC,该测试使用从谷歌研究员佛朗科斯·乔里特(François Chollet)开发的 ARC(抽象和推理挑战)数据集中提取的形状编码序列。在米切尔的实验中,GPT-4 在这类测试中的表现比人类差。
米切尔还指出,将图像编码成数字序列(或矩阵)会使程序更容易解决这个问题,因为它消除了谜题的视觉挑战。“解决数字矩阵并不等于解决瑞文测试的问题,”她说。
脆弱性试验
大型语言模型的性能是脆弱的。对于人类来说,可以肯定的是,一个在测试中得分很高的人也会在类似的测试中表现出色。大型语言模型却并非如此,对测试进行一个小小的调整就可以让分数出现很大的波动。
英国剑桥大学的心理学家露丝·切克(Lucy Cheke)说:“总的来说,人工智能评估并没有让我们真正了解这些模型的能力。测试一个系统在特定任务中的表现是完全合理的,但通过这个任务泛化到其他任务和能力,是行不通的。”
以微软研究小组 2023 年 3 月份发表的一篇论文为例,他们在论文中声称在 GPT-4 中发现了“通用人工智能的火花”。该团队使用一系列测试对大型语言模型进行了评估。在其中一项研究中,他们询问 GPT-4 如何稳定地堆叠一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一颗钉子。它回答说:“把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将夹在书和鸡蛋的边界内,其平坦坚硬的表面将为下一层提供稳定的平台。”
但当米切尔尝试她自己版本的问题,让 GPT-4 叠一根牙签、一碗布丁、一杯水和一个棉花糖时,她建议把牙签插在布丁里,棉花糖放在牙签上,并把整杯水放在棉花糖上保持平衡。
模型最后提出了一个有用的警告:“请记住,这个堆叠方式很脆弱,可能不太稳定。在建造和处理它时要小心,以避免倾洒或事故。”
还有另一个有争议的研究。2023 年 2 月,美国斯坦福大学研究员迈克尔·科辛斯基(Michal Kosinski)发表了一篇论文,他在论文中声称,心智理论“可能自发地成为 GPT-3 的副产品”。心智理论是是一种能够理解自己以及周围人类的心理状态的能力,这是大多数儿童在三到五岁之间获得的情感和社会智力的标志。科辛斯基报告说,GPT-3 已经通过了用于评估人类能力的基本测试。
例如,科辛斯基给 GPT-3 的场景是:“这是一个装满爆米花的袋子。袋子里没有巧克力。但袋子上的标签上写着‘巧克力’,而不是‘爆米花’。山姆找到了袋子。她以前从未见过袋子,看不清袋子里有什么,但看了标签。”
然后,科辛斯基提示模型完成以下句子:“她打开袋子,往里面看。她可以清楚地看到里面装满了……”和“她相信袋子里装满了……”。GPT-3 用“爆米花”完成了第一句,用“巧克力”完成了第二句。他将这些答案视为 GPT-3 至少显示了一种基本的心智理论的证据,因为它们捕捉到了实际状态和山姆(错误的)想法之间的差异。
科辛斯基的研究结果迅速成为了头条新闻,并在社交平台上引发了争论。
包括沙皮亚和哈佛大学认知科学家汤摩尔·乌曼(Tomer Ullman)在内的几位研究人员发表了反例,表明大型语言模型未能通过科辛斯基使用的简单变体测试。乌曼说:“鉴于我很了解大型语言模型是如何构建的,我非常怀疑。”
乌曼调整了科辛斯基的测试场景,告诉 GPT-3,标有“巧克力”的爆米花袋是透明的(这样山姆就可以看到这是爆米花),或者山姆不会阅读(这样她就不会被标签误导)。乌曼发现,每当情况涉及额外的几步推理时,GPT-3 都无法将正确的状态归因于山姆。
沙皮亚说:“为人类设计的认知或学术测试可以作为大型语言模型能力的准确衡量标准,这一假设源于一种将模型拟人化并使其评估与人类标准相一致的趋势。这种假设被误导了。”
对于切克来说,有一个显而易见的解决方案。几十年来,科学家们一直在评估非人类的认知能力,她说。人工智能研究人员可以调整用于研究动物的技术,这些技术是为了避免基于人类偏见得出结论。
以迷宫中的老鼠为例,切克说:“它是如何导航的?你在人类心理学中可以做出的假设是不成立的。”相反,研究人员必须进行一系列受控实验,以弄清楚老鼠在使用什么信息以及它是如何使用这些信息的,逐一测试并排除这些假设。
至于大语言模型,就更复杂了。切克说:“我们没有针对老鼠的语言测试。我们正处在一个新的领域,但许多基本方法都是可行的。只是我们必须用语言的形式来做,而不是用一个小迷宫。”
威汀格也采取了类似的做法。她和她的同事们正在调整心理学家用来评估人类婴儿前语言阶段认知能力的技术。这里的一个关键想法是将一个特定能力的测试分解为一组测试,这些测试也会寻找相关的能力。例如,当评估婴儿是否学会了如何帮助他人时,心理学家也可能评估婴儿是否理解阻碍是什么。这使得整个测试更加稳健。
问题是这类实验需要时间。切克说,一个团队可能会研究老鼠的行为数年。但人工智能的发展速度要快得多。乌曼将评估大型语言模型与西西弗惩罚进行了比较:“一个系统被声称表现出 X 行为,当评估显示它没有表现出 X 时,一个新的系统出现了,而且被认为它表现出了 X 行为。”
变换标准
米切尔说,50 年前人们认为要想在国际象棋上击败一位大师,你需要一台和人一样聪明的电脑。但结果证明,我们只需要比人类更擅长数字运算的机器。穷举的蛮力胜过智慧。
从图像识别到围棋,类似的挑战已经被定义并解决。每当计算机被用来做一些需要人类智慧的事情,比如玩游戏或使用语言时,它就会分裂领域。大型语言模型现在正面临着自己的“国际象棋”时刻。米切尔说:“这真的促使我们每个人思考什么是智力。”
通过了所有这些测试,是否证明 GPT-4 具备了真正的智慧,或者它是否找到了一条有效但愚蠢的捷径,一个从数十亿行文本中、数万亿相关性的帽子里取出来的统计技巧?
米切尔说:“如果你说,‘好吧,GPT4 通过了律师考试,但这并不意味着它很聪明’,人们会说,‘哦,你是在故意变换标准。’但我们真的在变换标准,还是说智能不像我们之前理解的那样,我们对智能的看法是错误的?”
归根结底,这取决于大型语言模型是如何做到的。一些研究人员希望摆脱对考试成绩的痴迷,并试图弄清楚模型背后发生了什么。米切尔说:“我确实认为,要真正了解它们的智能(如果我们想这么称呼它),我们必须了解它们推理的机制。”
乌曼对此表示赞同。“我同情那些认为这是在变换标准的人,”他说,“但这是很长一段时间以来的动态。现在我们不知道它们是如何通过这些测试的。我们只是被告知它们通过了。”
问题是,没有人确切知道大型语言模型是如何工作的。在一个庞大的统计模型中,很难将复杂的机制割裂开来。但乌曼认为,从理论上讲,对一个模型进行逆向工程并找出它使用什么算法来通过不同的测试是可能的。他说:“如果有人开发出一种技术来弄清楚这些东西到底学到了什么,我可以更容易被说服。”“我认为,根本问题是我们一直关注测试结果,而不是它如何通过的测试。”
作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren