腾讯科技讯 4月24日消息,微软在研究论文中声称,新一代的人工智能算法GPT-4可能会让人觉得它们已经达到了早期通用人工智能(AGI)的水平,只是目前尚缺少相关判定标准。然而许多反对者表示,微软是在炒作,GPT-4也缺少始终如一的自我意识。
去年9月份的一个晚上,微软机器学习研究员塞巴斯蒂安·布贝克从睡眠中醒来,想到了人工智能和独角兽。最近,布贝克提前获得了GPT-4的使用权,这是人工智能研究公司OpenAI开发出的强大文本生成算法,也是广受欢迎的聊天机器人ChatGPT核心机器学习模型的升级版。
布贝克是微软一个关键团队的成员,该团队致力于将新的人工智能系统整合到微软的必应搜索引擎中。然而,即使身在其间,布贝克和他的同事们仍惊叹于GPT-4的能力,它与他们以前见过的任何东西都截然不同。
与此前的大型语言模型一样,GPT-4也被输入了大量的文本和代码,并被训练使用语料库中的统计模式来预测应该在回复文本输入时生成的单词。但对布贝克来说,该系统的输出似乎不仅仅是做出统计学上合理的猜测。
那天晚上,布贝克起床并走到他的电脑前,让GPT用TikZ(一种相对晦涩的、用于生成科学图表的编程语言)绘制独角兽。布贝克使用的GPT-4版本只能处理文本,不能处理图像。但是模型给他提供了代码,在将代码输入到TikZ渲染软件中时,产生了一个由椭圆形、矩形和三角形拼凑而成的、尽管粗糙却十分独特的图像。
对布贝克来说,这样的成功肯定需要算法对这种生物有某种程度上的抽象把握。他说:“这里正在发生许多新的事情,也许这是我们第一次拥有可以称之为智能的东西。”
人工智能将变得多么智能?我们应该在多大程度上相信一种越来越普遍的感觉,即软件是智能的?这些已经成为一个紧迫的、几乎令人感到恐慌的问题。
去年11月,OpenAI发布了由GPT-3提供支持的ChatGPT,它以针对大量主题撰写诗歌和散文的能力、解决编码问题,以及从网络上合成知识的能力震惊了世界。但令人感到敬畏的同时,也伴随着人们对其被用于学术欺诈、错误信息传播和造成大规模失业的担忧。此外,人们也对微软等公司急于开发可能被证明非常危险的技术担心不已。
理解AI新能力的潜力或风险意味着,我们要清楚地掌握它们具备哪些能力,以及无法做到哪些事情。然而,虽然人们普遍认为ChatGPT和类似的系统赋予了计算机重要的新技能,但研究人员才刚刚开始研究这些行为,并确定提示背后发生了什么。
虽然OpenAI通过夸赞GPT-4在律师和医学考试中的出色表现来推广它,但研究人类智能方面的科学家表示,它的卓越能力在关键方面与我们不同。这些模型不仅倾向于编造事实,而且分歧巨大。每天都有数以百万计的人在使用这项技术,许多公司也把未来押在了这项技术上,这是个亟待解决的问题。
布贝克和微软的其他人工智能研究人员受到GPT-4经验的启发,参与了这场辩论。在将GPT-4系统接入必应并推出新的聊天功能几周后,该公司发表了一篇论文,声称在早期的实验中,GPT-4显示出“通用人工智能的火花”。
作者列举了许多例子,在这些例子中,该系统执行的任务似乎反映了更通用的智能,大大超过了以前的系统,如GPT-3。这些例子表明,与大多数以前的人工智能程序不同,GPT-4并不局限于特定的任务,而是可以处理各种各样的问题,这是通用人工智能的必备品质。
作者还认为,这些系统展示了推理、计划、从经验中学习以及将概念从一种形态转移到另一种形态的能力,比如从文本到图像。论文指出:“鉴于GPT-4能力的广度和深度,我们认为它可以被合理地视为通用人工智能(AGI)系统的早期版本,尽管其仍不完整。”
布贝克与包括微软首席科学官在内的另外14人共同撰写了这篇论文,但其在社交媒体上遭到了人工智能研究人员和专家的反对。通用人工智能是一个模糊的描述,有时用来暗指超级智能或神级机器,这个词的使用惹恼了许多研究人员,他们认为这是当前炒作的证据。
在有些研究人员看来,微软向OpenAI投资超过100亿美元的事实表明,该公司的人工智能专家有动机大肆宣传GPT-4的潜力,同时淡化其局限性。其他人则抱怨说,实验不可能复制,因为当提示重复出现时,GPT-4很少以同样的方式做出反应,而且OpenAI还没有分享其设计细节。当然,人们也会问,如果GPT-4真的这么聪明,为什么它还会犯可笑的错误?
美国伊利诺斯大学厄巴纳-香槟分校的塔利亚·林格教授说,微软的论文“展示了一些有趣的现象,然后提出了一些非常夸张的观点。吹捧系统具有高度智能,会鼓励用户信任它们,即使它们存在严重缺陷。虽然从用于衡量人类智力的系统中借鉴某些想法可能很诱人,但许多想法已被证明是不可靠的,甚至根植于种族主义。”
布贝克也承认其研究存在局限性,包括可重复性问题,而且GPT-4也有很大的盲点。他说:“使用通用人工智能一词就是为了引发争论。从定义上讲,智能是通用的。我们想了解这个模型的智能程度以及广度,毕竟它涵盖了很多很多领域。”
但是在布贝克论文中引用的所有例子中,有很多都表明GPT-4在某些事情上犯了明显的错误,而且通常是在微软团队用来吹嘘其成功的任务上。例如,例如,GPT-4能够提出一种稳定的方法来堆放一系列具有挑战性的物品,包括一本书、四个网球、一个钉子、一个酒杯、一团口香糖和未煮熟的意大利面,这似乎指向了其对世界物理属性的把握,这被视为人类的第二天性。然而,更改话题和要求可能会导致奇怪的失败,这表明GPT-4对物理的掌握并不完整或不一致。
布贝克指出,GPT-4缺乏工作记忆,在提前计划方面毫无建树。他说:“GPT-4不擅长这一点,也许大型语言模型通常永远不会擅长这方面的工作。”他指的是GPT-4等系统核心的大规模机器学习算法,“如果你想说智能就是计划,那么GPT-4就不是智能。”
毋庸置疑的是,GPT-4和其他强大人工智能语言模型的工作原理与大脑或人类思维过程并不相似。算法必须输入大量的训练数据(互联网上的大量文本),这远远超过人类学习语言技能所需的数据。灌输GPT-4的“经验”,以及用它构建的东西,这些智能物品是批量产出的,而不是通过与世界的互动和说教式对话获得的。
由于没有工作记忆,ChatGPT只能通过在每次对话重新输入会话历史来维持会话的线程。然而,尽管存在这些差异,GPT-4显然是一大飞跃,研究智力的科学家表示,它的能力需要进一步的研究。
一个由麻省理工学院、加州大学洛杉矶分校和得克萨斯大学奥斯汀分校的认知科学家、语言学家、神经科学家和计算机科学家组成的团队在1月份发表了一篇研究论文,探讨了大型语言模型的能力与人类的能力有何不同。
该团队得出结论称,尽管大型语言模型展示了令人印象深刻的语言技能,包括连贯地就给定主题写出复杂文章的能力,但这与理解语言以及如何在世界上使用语言截然不同。这其中存在的脱节问题可能是语言模型开始模仿堆叠物体或解决谜语所需常识推理的原因。但是,当涉及到理解社会关系、物理世界如何运作以及人们如何思考时,这些系统仍然会犯奇怪的错误。
这些模型使用语言的方式,通过预测最可能出现在给定字符串后面的单词,与人类通过说话或写作来传达概念或意图的方式也有很大不同。这种统计方法可能会导致聊天机器人跟随并反映用户提示的语言,甚至到了荒谬的地步。
例如,当一个聊天机器人告诉某人离开他们的配偶时,它只会给出在对话线索下看起来最合理的答案。ChatGPT和类似的机器人将使用第一人称,因为它们接受过人类写作的训练。但它们没有始终如一的自我意识,可以在瞬间改变自己声称的信仰或经历。OpenAI还使用来自人类的反馈来引导模型生成人们认为更连贯和正确的答案,这可能会促使模型提供被认为更令人满意的答案,而不管它们是否准确。
麻省理工学院教授乔希·特南鲍姆是1月份那篇论文的撰稿人之一,他研究人类认知以及如何利用机器探索人类认知。他说,GPT-4很了不起,但在很多方面与人类智能有很大不同。例如,它缺乏对人类思维至关重要的那种动机,“它甚至不在乎是否关闭”。人类不是简单地遵循自己的程序,而是根据自己的需要和愿望为自己创造新的目标。
特南鲍姆还称,GPT-3、GPT-4和ChatGPT之间发生许多关键的工程变化,使它们的能力更加强大。首先,该模型是在大量计算机代码上进行训练的。他和其他人认为,人脑可能使用类似于计算机程序的东西来处理部分认知任务,所以也许GPT-4从代码中发现的模式中学到了非常有用的东西。他还指出,ChatGPT从人类那里得到的反馈是一个关键因素。
但特南鲍姆表示,由此产生的能力并不等同于人类智力特征中的一般智力。他说:“我对人类个体和集体的认知能力很感兴趣,这不仅仅是一种执行一大堆任务的能力。我们制造任务,我们也能制造解决这些任务的机器。”
特南鲍姆还说,目前还不清楚未来几代GPT能否获得这些能力,除非采用一些不同的技术,这可能意味着从机器学习之外的人工智能研究领域汲取灵感。重要的是,要仔细考虑我们是否要以这种方式设计系统,因为这样做可能会产生不可预见的后果。
1月份那篇论文的另一位作者、得克萨斯大学奥斯汀分校语言学助理教授凯尔·马霍瓦尔德说,基于GPT-4能力的单个例子做出任何判断都是错误的。他解释称,认知心理学的工具可以用来衡量这些模型的智力。但他补充说,GPT-4的不透明性使挑战变得更复杂。重要的是训练数据中有什么,我们不知道。如果GPT-4在那些明确训练过的常识性推理任务上取得成功,而在其他没有训练过的任务上失败,很难据此得出结论。
那么,GPT-4是否可以被视为迈向通用人工智能的一小步,完全取决于你的看法。重新定义这个词可能是最令人满意的答案。斯坦福大学心理学、计算机科学和语言学副教授诺亚·古德曼表示:“我现在的观点是,这就是通用人工智能,因为它是一种通用的智能,但前提是我们对通用人工智能的含义不那么固执。”
不幸的是,GPT-4和ChatGPT被设计为抵制这种简单的重构。它们很聪明,但几乎没有提供关于如何或为什么的见解。更重要的是,人类使用语言的方式依赖于在对话的另一边有一个智能实体的心理模型来解释我们所表达的词语和想法。我们不禁发现,如此轻松使用语言的生物身上闪烁着智慧的光芒。古德曼说:“如果预言模式是有意义的,那么人类天生就会把它们理解为有意的,并适应这种情况。”
人工智能不像人类,却看起来如此聪明,这一事实仍然令人惊叹。古德曼称:“我们获得了大量的原始智力,但它不一定带有自我观点、目标或连贯的自我意识。然而对我来说,这已经足够迷人了。”
本文来自“腾讯科技”,作者:金鹿,36氪经授权发布。