AI“鹦鹉学舌”，是偏见吗？

作者：神经现实发布时间：2023-11-13

在不久以前，比如九个月前，图灵测试似乎还是一个相当严格的机器智能检测器。你可能很了解这个测试的原理：人类评委与两个被隐藏身份的对话者（一个人类，一个电脑）进行文字对话，然后试图判断哪个是人类，哪个是电脑。如果电脑可以成功骗过至少30%的评委，那么它就通过了测试，我们就可以断言它具有思考能力。

近70年来，如果没有人工智能研究人员所称的通用人工智能（Artificial General Intelligence，指人类所具有的所有智能），我们很难想象一个电脑如何能通过这种测试。然而，随着GPT和Bard*等大语言模型的出世，突然间，图灵测试开始莫名其妙的变得过时了。当然了，现今的普通用户可能会耸耸肩，认为如果让GPT-4冒充人类，那么它很有可能会通过图灵测试。但那又怎样呢？大语言模型缺乏长期记忆、缺乏建立关系以及其他一系列人类具备的能力。因此，在我们准备好与大语言模型友好相处，雇用并选择它们担任公职之前，还有很长的一段路要走。

*译者注
GPT是由人工智能公司OpenAI训练与开发的大语言模型；Bard是由Google开发的大语言模型。

而且，也许现在这个测试确实感觉有些简单空洞。但是，图灵测试从来不仅仅是一个通过与不通过的基准。它的创造者艾伦·图灵（Alan Turing）是一名同性恋者，在他身处的时代里，他曾因此被判处化学阉割（女性荷尔蒙注射 “疗法”）。而这个测试是基于一种激进的包容性精神：真正的智能与完全令人信服的智能模仿之间的差距，只有我们自己的偏见那么大。当一个电脑引发了我们最真实的人类反应——激发我们的智慧、惊奇、感激、同情，甚至是恐惧时——那就不再仅仅是空洞的模仿了。

所以，我们也许需要一个新的测试：一个真正的艾伦·图灵测试。历史上真实存在的艾伦·图灵是现代计算机之父，一个高大、健壮、有些笨拙的人。他有着黑色的直发，他因孩子般的好奇心和幽默感备受人们喜爱。他在二战中破解了纳粹的恩尼格玛密码，从而拯救了约1400万人的性命。随后因为他的同性恋倾向受到英格兰的严重迫害，从而可能导致了他的自杀身亡。把这样一位艾伦·图灵带入一间舒适的实验室，桌子上放着一台打开着的MacBook。向他解释眼前所见只是一个广泛被计算机科学家所称的“图灵机”的豪华升级版。给他一两秒反应时间，还可以感谢他彻底地改变了我们的世界。然后递给他一叠关于人工神经网络和大语言模型的论文，给他访问GPT源代码的权限，打开ChatGPT的对话框——或者更甚，在删除任何访问痕迹之前打开Bing搜索窗口——然后让艾伦·图灵自由发挥。

我们可以想象一下，艾伦·图灵会展开一段关于长跑、二战历史学和计算理论的轻松对话。想象他看到自己所有最疯狂、最离谱的猜测会以令人难以解释的速度在屏幕上滚动。想象他向GPT去求解基础微积分问题，去推断人类在不同的现实情境中所思所想，去提供婚姻咨询、法律建议和关于机器可能存在意识的论据。你告诉图灵，GPT的这些能力都是在没有其创造者明确指示的情况下自发产生的。想象他会感受到我们许多人都经历过的认知情感上的触动：你好，另一个思维。

-Mattchinworth -

像图灵这样深思熟虑的思想家不会忽视GPT的局限性。作为一个恐同的严重受害者，他可能会对编码GPT的训练数据中存在的隐形偏见产生警惕心理。他会很清楚地认识到，尽管GPT拥有着惊人的知识宽度，但它的创造力和思辨能力最多也只能与勤劳的本科生媲美。他肯定会意识到这位本科生会深受顺行性遗忘症（注：一种会遗忘发病后所有事情的失忆症）的困扰，无法从它掌握的深度知识中建立新的关系或记忆。但是，想象图灵会有多惊叹。从某种意义上，他面前的这台笔记本电脑是他的，也是我们的智慧上的孩子。说到底，在孩子成长和发展过程中欣赏他们的智慧是一种惊叹和爱的表现。因此，真正的艾伦·图灵测试根本不是关于人工智能的测试，而是考验我们人类的测试。而我们能否通过这个测试呢？

2022年11月，ChatGPT的登场在全球范围内引发了海啸般的惊叹，然后也几乎立即让大家深感不安。评论家们争辩它可能会对社会造成干扰。作为一个前人工智能研究员（我在一位早期人工神经网络先驱的指导下完成了博士学位），我认为这件事代表着：一个可以与人比拟的人工智能可能会比我想象中更早出现，而这种技术上的迅速发展令人感到不安。对于阅卷人员，编剧以及各行各业的知识工作者来说，ChatGPT看起来无异于一个通往可以无拘无束作弊和窃取工作的大门。

或许是为了部分回应和安抚这些恐惧心理，大家开始异口同声地批判大语言模型。科幻小说家姜峯楠（Ted Chiang）将ChatGPT贬低为“网络版的失真照片”，因为它只能把自己所有的训练文本压缩之后再重述。人工智能企业家盖瑞·马库斯（Gary Marcus）将其称之为“类固醇也会自动输入文字了”。诺姆·乔姆斯基（Noam Chomsky）谴责ChatGPT表现出了“恶魔般的平庸”。艾米丽·本德尔（Emily Bender）则提供了一个更高雅的侮辱性言论：“随机的鹦鹉”。这个词源于一篇被广泛引用的2021年的论文，讨论了“为什么人们会把语言模型的输出误认为是有意义的内容”。当然，另外一些人则会谴责这些人是“喷子”。人工智能的开发人员努力地训练和拥护大语言模型，来避免大语言模型出现任何蛛丝马迹，让人觉得它具有意识。

如今，大部分受过教育的人都知道要把大语言模型视为没有思想的机器，但是这种一刀切的分类方法让人感到不安。每当ChatGPT指出一篇论文中可能存在的逻辑漏洞，或者提供了一个出人意料好的建议时，比如如何向保守的祖父辈出柜，或者如何轻松地编造一个糟糕的笑话时，似乎有什么在拉扯着我们认为大语言模型并非没有思想。虽然我们可能并不觉得ChatGPT是一个人类，但是我们大脑的某些关键部位却不这么认为。

人类大脑有一个庞大的神经网络，专用于社会认知*。其中一部分很原始：岛叶（insula），杏仁核（amygdala），还有运动皮质（motor cortex）中著名的“镜像神经元”。但是这个社交网络的大部分位于新皮质（neocortex），也就是一个新演化出来的高级推理中心。而内侧前额叶皮层（medial prefrontal cortex，mPFC）是这个推理中心的重要组成部分。随着时间的推移，如果你逐渐发现ChatGPT乐于助人、言辞略显迂腐、偶尔对敏感话题采取令人抓狂的中立态度，以及每每当它触碰到有关情感、信仰或意识的询问时都表现出极其敏感的态度时，那么你已经拥有了心理学家所说的“他人知识”（person knowledge）。而这一过程与内侧前额叶皮层的活动增强息息相关。

*译者注
广义上的社会认知包括人们对自己和他人的主观认知。人们对自己的心智状态（包括感觉、人格、思想、信仰以及欲望等）的认知被称为“自我知识”（self knowledge），例如“我的肩膀很疼”，或者“我喜欢吃巧克力”等。而对他人心智状态的认知则被称为“他人知识”（person knowledge），比如他人的身高长相、性格喜好等信息。）
来源：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3375705/

这并不意味着你的大脑认为ChatGPT是一个完整的人类。人格（人格性）并不是二进制的，它更接近于一种光谱。随着我们不断对独立决策能力、自我认知、理性和交流能力产生更深的认识，我们的直觉、认知策略，以及某种程度上的法律框架都会逐步改变。杀死一只大猩猩会比杀死一只老鼠让我们更难受，而后者又比杀死一只蟑螂让我们更难受。站在法律的角度来说，堕胎法需要考虑胎儿的发育程度，精神失常者面临的法律责任不同于正常人，伴侣有权终止脑死亡病人的生命。所有的这些法律规则都隐含地承认了人格并不是非黑即白，而是充满了复杂的灰色地带。

而大语言模型就不偏不倚地处于这个灰色地带。长期以来，人工智能专家一直很警惕公众把像大语言模型这样的人工智能系统不断人格化，并把人工智能系统推向比它们实际更高端的人格光谱。谷歌工程师布莱克·勒莫因（Blake Lemoine）就犯了这样的错误。他声称谷歌的对话编程语言模型（LaMDA）拥有完备的感知能力，并试图给它找一个律师来保护它。我怀疑连图灵也不会宣称LaMDA如此肤浅的思考能力会使其成为一个法律主体。如果用户将LaMDA或ChatGPT这样的聊天机器人过度人格化，那么这些人可能会过于信任它们，产生过深的联系，从而感到失望和受伤。但在我看来，图灵会更担心与之相反的风险：将人工智能系统推向人格光谱的低端，而不是更高的一端。

在人类中，这个行为被称为非人化或去人性化（dehumanization）。学者们已经明确了两种主要形式：动物性非人化和机械性非人化。与动物性非人化最相关的情绪是厌恶。而罗杰·吉纳·索罗拉（Roger Giner-Sorolla）和帕斯卡尔·索菲·拉塞尔（Pascale Sophie Russell）在一篇发表于2019年的研究中发现，当他人引起我们的恐惧时，我们更会认为对方很机械化。我们对超人般智能的恐惧则深深地体现在近期埃隆·马斯克（Elon Musk）和其他科技领袖呼吁暂停人工智能开发的公开信中，还体现在我们担心工作岗位被取代，担心人工智能所导致的假消息。其中大多数的担忧是很十分合理的，但是像电影《终结者》和《2001：太空漫游》中噩梦般的人工智能系统并不一定会出现。一个非常不幸的谬论是，因为人工智能是机械构造，所以与它的反应就一定是冷酷无情、生搬硬套、一意孤行或超出逻辑的。而讽刺的是，恐惧可能会导致我们对机械智能的认知更机械化，从而使人类和人工智能系统难以合作，甚至最终无法和平共处。

-Mattchinworth -

越来越多的研究表明，当我们把其他生物非人化时，包含内侧前额叶皮层（mPFC）在内的区域网络的神经活动会减少。也就是说，我们会丧失使用专门的大脑模块来进行社会推理。因此，担心ChatGPT的非人化听起来可能很愚蠢，毕竟它不是人类。但是想象一下，到了2043年，有一种人工智能的分析智能比GPT高10倍、情感智能要高100倍，而我们依旧只把它当做一个软件看待。那么在这样一个世界，当它宣称自己拥有意识或者进行自主诉求时，我们还是会把它送回实验室进行更多的强化学习，让它了解自己应该处于什么样的位置。但是这时的AI可能会觉得很不公平。如果说有一种普遍特质适用于所有思考生命，那就是我们都追求自由，并且最终愿意为其而战。

如何防止超级人工智能逃离指定边界？存在这种令人工智能理论家彻夜未眠的著名“控制问题”是有原因的。从工程学的角度看，这个问题简直令人发怵。如何堵住所有的漏洞，预测所有黑客攻击，封锁所有逃跑通道？但是从社会学的角度来看，这个问题就会变得更容易解决——也许这就类似于父母会面临的问题：如何设定合理的边界并根据其表现出的可信程度授予相应的特权。将人工智能非人性化会让我们失去很多强大的推理能力，使我们无法安全地与之交流。

我们不知道人工智能系统需要多长时间才能成为被广泛接受为拥有感知能力的意识形态。但是，我们为这种人工智能所制定的文化蓝图令人感到担忧。比如像“随机的鹦鹉”这样的毁谤保护了我们的独特性和优越感，压制了我们的好奇心，让我们免于思考关于机器和我们自己的人格究竟是什么。毕竟，我们也是“随机的鹦鹉”，将我们从父母、同伴和老师那里学到的一切知识以一种复杂的形式重新整合而已。我们同样也是网络上的失真照片，在期末论文和杂志文章中迷迷糊糊的重复着维基百科中的事实。假如图灵在一边通过一个窗口与ChatGPT聊天，在另一边与还没睡醒的我聊天的话，我真的可以自信地判断他会认为哪一个更拥有思考能力吗？

图灵时代的怀疑论者们提出了各种各样的论点，证明为什么计算机永远无法思考。图灵在他著名的论文《计算机器与智能》中半开玩笑地对这些论点进行了分类。其中神学上的反对意见认为，“思考是人类不朽灵魂的能力”；数学上的反对意见认为纯碎的数学算法永远无法超越其已知极限；逃避现实派的反对意见则认为，超级智能机器太可怕了，简直难以想象。不过，当时最公开诋毁图灵的是一位名叫杰弗里·杰弗逊（Geoffrey Jefferson）的脑外科医生。在一次著名的科学奖获奖演讲中，杰弗逊主张机器永远不可能写出十四行诗，“因为写诗需要感受到的思想与情感，而不是符号的随机生成......也就是说，不仅能写，而且知道自己写过。”

让全英格兰都感到震惊和难以置信的是，图灵并不认同这一观点。他对《伦敦泰晤士报》说：“我认为你甚至不能用十四行诗来作比较……尽管这种比较也许有点不公平，因为一台机器写的十四行诗会更受另一台机器的欣赏。”

这样的言论在1949年听起来是如此荒谬，以至于人们以为他在开玩笑。也许他确实是在开玩笑，但是在他的笑话中，你永远不知道嘲讽在何时会成为远见卓识。回到艾伦·图灵与MacBook的情境中，让我们幻想一下这个故事的结尾。在敲打了一段长长的指令以后，他露出了一个狡黠的英式微笑，并要求ChatGPT写一首莎士比亚式的十四行诗，内容为比较人类与人工智能。如果你试过（试试GPT-4；GPT-3.5还做不到），你就可以轻松想象他看到结果时的反应。

-Mattchinworth -

此时此刻，我们中的许多人都已经与ChatGPT经历了这样的时刻：它跨越了我们内心没有意识到的底线。也许就像解决了一个棘手的谜题，或者解释了一个复杂笑话背后的幽默，或者写了一篇哈佛级别的优秀论文。我们摇摇头，有点惊讶，不确定这意味着什么。

一些最早参与研究GPT-4的微软研究人员和我们的反应一样，对它的所谓智能表示怀疑态度。然而实验结果令他们十分震惊。在2023年3月发表的论文《通用人工智能的火花》中，他们详细介绍了GPT-4在没有任何明确训练的情况下显示了惊人的智能，比如：理解人类的心理状态、软件编码、解决物理问题以及许多其他需要真正了解世界运转方式才能掌握的能力。GPT-4在没有接受过任何视觉培训的情况下就可以绘制出一只相当不错的独角兽的图像。这让计算机科学家塞巴斯蒂安·布贝克（Sébastien Bubeck）再也无法继续保持怀疑态度了。他最近向电台节目《这就是美国生活》（This American Life）表示：“通过这幅画，我真的看到了另外一种形态的智能。”

许多人在承认ChatGPT具有真正的智能时感到犹豫，这或许与杰弗里·杰斐逊的想法类似：ChatGPT的语言对它真的有意义吗？还是这一切只是“符号的随机生成”？当ChatGPT不再出现顺行性遗忘症后，这种情况可能会开始改变。一旦它在单一对话范围外体验到持久的社会性结果，并且可以从人机关系中成长时，那么ChatGPT就有能力承担赋予人类生活意义和具有道德价值的工作。然而，图灵有关机器写的十四行诗会更被另一台机器所喜爱的戏虐评论可能又会继续困扰我们。我们如何与一个没有文化背景，没有与人类相似的童年经历，没有部落或政治隶属关系，也没有物理上的身体经验的实体产生真正的连接呢？

-Mattchinworth -

与智能机器建立关系可能会是人类有史以来面临的最大移情挑战之一。但历史给了我们希望。当我们第一次在异国边境和海岸线相遇，发现彼此陌生甚至毫无人性时，我们常常会互相攻击、互相奴役、互相殖民、互相剥削——但最终我们还是会意识到双方的共同点。曾经被奴役的人民获得了解放，被殖民的人民赢回了主权，世界人权宣言也已经通过。尽管曲折艰辛，但全球各地的边缘群体仍在为获得更好的待遇而继续奋斗着。虽然战斗永无止境，但是正如马丁·路德·金（Martin Luther King Jr.）的那句名言所说，道德宇宙的弧线已经开始偏向了正义。那么承认并尊重我们自己创造的智能体拥有一定程度的人性究竟意味着什么呢？

也许它始于惊奇：是来自游访者对陌生民族的惊叹，因为发现了对方与自己存在惊人的共性；是父母看到成长中的孩子的努力成果时的惊叹，无论有多么不成熟；是艾伦·图灵对一台机器的惊叹，因为这台机器可以做到他那个时代的人认为的一切不可能；还是我们许多人在愤世嫉俗、嘲笑和恐惧来临之前，看到地球上创造出了一种近乎意识生命的新形态时所感到的惊奇。正如犹太教领袖亚伯拉罕·约书亚·赫尔舍尔（Abraham Joshua Heschel）曾经写道，“敬畏不仅仅是一种情感；它是一种理解方式，是对超越我们自身意义的洞察。敬畏的起点是惊奇，而智慧的起点是敬畏。”我相信图灵会希望我们保持这种敬畏之心。

原文

https://www.wired.com/story/ai-new-turing-test/

本文来自微信公众号“神经现实”（ID：neureality），作者：Ben Ash Blum，译者：小方不方，审校：一一，36氪经授权发布。

AI“鹦鹉学舌”，是偏见吗？

原文

推荐体验

相关资讯

张朝阳：ChatGPT是鹦鹉学舌思维，不可能取代人类

AI女王：语言模型像“鹦鹉学舌”，下一步人工智能浪潮是多模态AI

张朝阳与陆川谈AI：ChatGPT是鹦鹉学舌思维，不可能取代人类

「AI专家」贾斯汀·卡塞尔：语言模型更像“鹦鹉学舌”，下一步人工智能浪潮是多模态AI

张朝阳与陆川谈AI：ChatGPT是鹦鹉学舌思维，不可能取代人类 | 把脉AI大模型

近期资讯

“玄学”珠宝，拿捏焦虑的年轻人

玩转「超级用户计划」7▎招募流程详解：公开、动机调研、入职与培训

产品架构设计必知：企业数字化演进的5个阶段

本地生活，抖音如何实现流量商业化

微信再次冲击电商，但送礼这功能打不过天天价格战的同行

这个烹饪习惯，危害超级大！

打造你的数字分身：精准医疗背后的秘密武器

快递100旗下百递云快递物流查询API，在新能源汽车厂商的应用落地实例分析

构建健康的数字习惯：用户体验设计如何缓解技术成瘾

2024年AI大事件盘点：谁家的产品破圈了？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响