神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:AGI(通用人工智能)代表着具有人类认知能力的人工智能,而不是狭义上的人工智能。有人认为 GPT-4 已经达到了AGI 的水平,而有些人认为 GPT-4 连 AGI 的边儿都够不到。本文来自编译,希望对您有所启发。
PHOTOGRAPH: EUGENE MYMRIN/GETTY IMAGES
去年9月的一个夜晚,微软的机器学习研究员塞巴斯蒂安·布贝克(SÉBASTIEN BUBECK)在醒来之后,想到了人工智能和独角兽。
布贝克提前获得了 GPT-4 的使用权,这是 OpenAI 开发的一种强大的文本生成算法,也是广受欢迎的聊天机器人 ChatGPT 核心机器学习模型的升级版。布贝克是一个“致力于将新的人工智能系统整合到微软必应搜索引擎”团队的一员。布贝克及其同事们一直在惊叹,GPT-4 似乎与他们之前看到的所有东西都不同。
GPT-4 和它的“前辈们”一样,经过了大量文本的训练,找到了语料库中的统计模式,并能够根据输入的内容生成特定的文本。但对布贝克来说,该系统的输出似乎不仅仅是在做出统计上合理的猜测。
那天晚上,布贝克起床后走到他的电脑前,让 GPT-4 用 TikZ(一种用于生成科学图表的、相对晦涩的编程语言)画一只独角兽。原本布贝克使用的 GPT-4 版本只能处理文本,不能处理图像。但是当他把模型提供的代码输入到 TikZ 渲染软件时,居然产生了一个由椭圆形、矩形和三角形拼凑而成的独角兽图像,虽然粗糙,但能很明显地看出是什么东西。布贝克想,既然 GPT-4 能用椭圆形、矩形和三角形拼凑而成一个独角兽图像,那么它对这种生物的元素肯定有一些抽象的把握。“这次是不一样的,”他说,“也许我们第一次拥有了可以称之为智能的东西。”
人工智能将变得多么智能,以及我们应该在多大程度上相信它,已经成为一个紧迫的、几乎令人恐慌的问题。
去年 11 月,在 OpenAI 发布 ChatGPT(由 GPT-3 提供支持)之后,其写诗作赋、解决代码问题,以及对提问应答如流的能力震惊了世界。但在震惊的同时,人们对学术欺诈、错误信息和大规模失业的可能性也感到了担忧,并担心微软等公司急于开发(可能被证明是)危险的技术。
要想了解人工智能新型能力的潜力或风险,我们要清楚地知道这些能力是什么,以及不是什么。虽然人们普遍认为 ChatGPT 和类似的系统赋予了计算机重要的新技能,但研究人员才刚刚开始研究这些新技能,并试图确定这背后发生了什么。
虽然 OpenAI 通过吹嘘其在律师和医学院考试中的表现来推广 GPT-4,但研究人类智能方面的科学家表示,GPT-4 的卓越能力在关键方面与我们人类不同。众所周知,模型倾向于编造事实,但围绕这点也存在很大分歧。每天都有数以百万计的人在使用这项 AI 技术,许多公司也把未来押在了这项技术上,因此这是一个非常重要的谜团。
布贝克和微软的其他人工智能研究人员受到 GPT-4 经验的启发,参与了这场辩论。在将 GPT-4 系统接入必应并推出新的聊天功能几周后,该公司发表了一篇论文,声称在早期的实验中,GPT-4 显示出“人工通用智能的火花”。
作者列举了一些例子,在这些例子中,该系统执行的任务似乎反映了更普遍的智能,大大超过了以前的系统,如 GPT-3。这些例子表明,与大多数以前的人工智能程序不同,GPT-4 并不局限于特定的任务,而是可以处理各种各样的问题,而这是通用智能的必要素质。
作者还认为,这些系统表现出了推理、计划、从经验中学习以及将概念从一种模式转移到另一种模式的能力,例如从文本到图像。论文指出:“鉴于 GPT-4 能力的广度和深度,我们认为它可以被合理地视为通用人工智能(AGI)系统的早期版本(但仍不完整)。”
布贝克与包括微软首席科学官在内的其他 14 人共同撰写的论文,在社交媒体上遭到了一些人工智能研究人员和专家的反对。“AGI”一词是一个模糊的描述词,有时被用来暗指“超级智能”或“神一样的机器”,这个词的使用激怒了一些研究人员,他们认为这是当前炒作的一个表现。
在一些研究人员看来,微软向 OpenAI 投资超过 100 亿美元的事实表明,该公司的人工智能专家有动机大肆炒作 GPT-4 的潜力,同时淡化其局限性。还有一些人抱怨说,这些实验是不可复制的,因为当提示重复出现时,GPT-4 很少以同样的方式做出反应,而且 OpenAI 也没有分享其设计的细节。当然人们还会问,如果 GPT-4 真的这么聪明,那么为什么它还会犯可笑的错误。
伊利诺伊大学厄巴纳-香槟分校的塔利亚·林格(Talia Ringer)教授说,微软的论文“展示了一些有趣的现象,然后提出了一些非常夸张的说法。”他们吹捧系统是高度智能的,还鼓励用户信任 AI,即使它们存在严重缺陷。林格还指出,虽然 AI 很诱人,但很多系统已被证明是不可靠的,甚至根植于种族主义。
布贝克承认他的研究有其局限性,包括可重复性问题,而且 GPT-4也有很大的盲点。他说,使用“AGI”一词是为了引发辩论。他说:“从定义上讲,智能是通用的。我们想了解这个模型的智能程度,以及它的广泛适用性。”
但是,在布贝克论文中引用的所有例子中,有许多例子都显示 GPT-4 明显地出错了。例如,GPT-4 能够提出一种稳定的方式来堆放物体,完成一些具有挑战性的任务,比如一本书、四个网球、一枚钉子、一个酒杯、一包口香糖和一些未煮熟的意大利面条。这似乎表明,GPT-4 已经掌握了物理的特性。然而很奇怪的是,在改变物品和要求之后,它便有可能失败,这表明 GPT-4 对物理学的掌握并不完整或一致。
布贝克指出,GPT-4 缺乏工作记忆,在提前计划方面毫无希望。“GPT-4不擅长这一点,也许大型语言模型永远不会擅长这一点,”他说,指的是 GPT-4 等系统核心的大规模机器学习算法,“如果你认为智能就是计划,那么 GPT-4 就不是智能。”
毋庸置疑的一点是,GPT-4 和其他强大的人工智能语言模型的工作原理,与大脑生物学或人类思维过程并不相似。算法必须输入大量的训练数据(互联网上的很大一部分文本),这远远超过人类学习语言技能所需的数据。我们必须灌输给 GPT-4 大量的“经验”,因为它不能通过与世界互动和教学的方式获得这些知识。由于没有工作记忆,ChatGPT 只能通过在每个回合重新输入会话历史,才能维持会话的连续过程。然而,尽管 GPT-4 存在这些缺点,但它显然已经是一个飞跃了。研究智能的科学家表示,GPT-4 的能力需要进一步的研究。
一个由麻省理工学院、加州大学洛杉矶分校和德克萨斯大学奥斯汀分校的认知科学家、语言学家、神经科学家和计算机科学家组成的团队,在 1 月份发表了一篇研究论文,探讨了大型语言模型的能力与人类的能力有何不同。
该小组得出的结论是,虽然大型语言模型表现出令人印象深刻的语言技能(包括连贯地就给定主题写出一篇复杂文章的能力),但这与理解语言以及在现实世界里使用语言是不一样的。这种脱节可能就是为什么语言模型可以模仿人类堆放物体或解决谜语,但当涉及到理解社会关系、物理世界如何运作以及人们如何思考时,这些系统仍然会犯奇怪的错误。
这些模型使用语言的方式是预测最可能出现在给定字符串后面的单词,这与人类通过说话或写作来传达概念或意图的方式有很大不同。这种统计方法可能会导致聊天机器人对用户输入的提示采取“跟随策略”,在用户的文字基础上进行延展,甚至到了荒谬的地步。
ChatGPT 和类似的机器人会使用第一人称,因为它们是根据人类的写作训练出来的。但这些模型没有一致的自我意识,可以在瞬间改变自己的信念或经历。OpenAI 还会利用人类的反馈来引导模型生成看起来更连贯、更正确的答案,这可能会使模型提供更令人满意的答案,而不管其准确性如何。
麻省理工学院的教授乔希·特南鲍姆(Josh Tenenbaum)是 1 月份那篇论文的撰稿人之一,他研究的是人类认知以及如何利用机器探索人类认知。他说,GPT-4 很了不起,但在很多方面与人类智能有很大不同。例如,它缺乏对人类思维至关重要的那种积极性。“它不会在乎自己是否被关闭。”特南鲍姆说。他说,而人类不只是简单地遵循自己的程序,而是会根据自己的需要和愿望,为自己创造新的目标。
特南鲍姆说,GPT-3、GPT-4 和 ChatGPT 之间发生了一些关键的工程变化,使其能力越来越强。首先,该模型是在大量计算机代码上进行训练的。特南鲍姆及其他人认为,人脑可能使用类似于计算机程序的东西来处理一些认知任务,所以也许 GPT-4 从代码的模式里学到了一些有用的东西。他还指出,ChatGPT 从人类那里得到的反馈是一个关键因素。
但他表示,由此产生的能力并不等同于作为人类智能特征的一般智能。他说:“我对人类个体和集体的认知能力很感兴趣,这不仅仅是一种执行一大堆任务的能力。我们制造任务,并制造解决这些任务的机器。”
特南鲍姆还说,目前还不清楚未来几代 GPT 能否获得这些能力,除非采用一些不同的技术。这可能意味着要从机器学习之外的人工智能研究领域汲取灵感。他说,重要的是要仔细考虑我们是否要以这种方式设计系统,因为这样做可能会产生不可预知的后果。
1 月份那篇论文的另一位作者、得克萨斯大学奥斯汀分校语言学助理教授凯尔·马霍瓦尔德(Kyle Mahowald)说,基于 GPT-4 能力的单个例子做出任何判断都是错误的。他说,来自认知心理学的工具对于衡量这种模型的智能可能是有用的。但他补充说,由于 GPT-4 的不透明性,这一挑战变得更复杂了。“训练数据中的内容很重要,而这些数据中有什么,我们不知道。如果 GPT-4 在一些明确训练过的常识性推理任务上表现很好,但在其他没有训练过的任务上失败了,那么很难据此得出关于 GPT-4 是否为 AGI 的结论。”
GPT-4 是否可以被视为迈向 AGI 的一步,或许完全取决于你自己怎么看待这个问题。或许,重新定义这个词会提供最令人满意的答案。斯坦福大学(Stanford University)心理学、计算机科学和语言学副教授诺亚•古德曼(Noah Goodman)表示:“这些天来,我的观点是,这就是 AGI,因为它是一种智能,而且是通用的,但我们必须对 AGI 这个词祛魅了,不必对 AGI 感到过于兴奋。”
人类使用语言的方式,依赖于在对话的另一边,有一个智能实体来解释我们所表达的话语和想法。人工智能虽然与我们不一样,但看起来却如此智能,这是很令人惊叹的。古德曼说:“目前的 AI 拥有强大的原始智能,但却不一定带有自我观点、目标或连贯的自我意识。对我来说,这真是太有意思了。”
译者:Jane