ChatGPT的黑暗之心

作者：AI前线发布时间：2023-04-11

2023 年 2 月，Roman Semenov 与 ChatGPT 对话后获得的一个答案

将来有一天人们可能会发现，ChatGPT 被视为 AI 行业发展史上最大的宣传噱头。人们从 ChatGPT 中瞥见了梦幻般的未来一角，但这样的未来其实还要等待多年才能走进现实。这个故事能让人想到 2012 年的无人驾驶技术宣传，只是这一次我们要早早面对一种需要多年才能解决的道德困境。

人们理所当然地认为 ChatGPT 的表现是它的诸多前辈，比如说 Microsoft Tay（2016 年 3 月 23 日发布，3 月 24 日就因为胡言乱语、无视社会规范而被下线）和 Meta 的 Galactica（2022 年 11 月 16 日发布，11 月 18 日撤回）无可比拟的，但这只是一种错觉——自以为道德问题已经不存在了。ChatGPT 基本不会发表明显的种族主义言论，简单的反犹太主义请求和一眼就能看穿的欺骗性请求一般都会被系统拒绝回应。

实际上，因为它看起来实在太政治正确了，它甚至激怒了右翼群体。埃隆·马斯克就担心这个系统要成为一派的代言人：

实际情况却更复杂。

首先我们要记住，（正如我多次强调的那样）ChatGPT 这个系统并不知道它自己在说什么。我们不能把 ChatGPT 拟人化，然后想象它会有任何道德观点。

从技术角度来看，据说 ChatGPT 相比早它几周发布，但发布三天后就被撤回的 Galactica 的主要优势在于道德护栏。用户不费吹灰之力就能让 Galactica 肆无忌惮地化身喷子，胡言乱语，（反犹太主义也说自己的好处就是大家不需要小心翼翼），而 ChatGPT 有自己的道德护栏，这些护栏在大多数情况下会避免 ChatGPT 像 Galactica 那样黑化。

但不要掉以轻心，我可以在这里告诉你们，那些护栏纯属自欺欺人。

真正决定 ChatGPT 输出内容的是通过单词序列定义的表层相似度。与人们的直觉相反，Chat 从来不会判断是非。它的系统里并不存在某种智能逻辑和用来衡量对错的数值，有的只是语料库数据而已。其中一些数据来自互联网，一些由人类标注员（包括收入非常低的肯尼亚外包员工）来做判断。系统里并不存在某种有思想的道德法官。

这意味着 Chat 的立场有时会偏左，有时又偏右，有时会介于两者之间。决定它给出答案的立场的东西，其实就是输入字符串中的一堆单词与几个训练语料库中的一堆单词的匹配函数（有的语料库用于对大型语言模型调优，还有的用于强化学习的调优）。Chat 提供的道德评价在任何情况下都不应该被人取信。

这正是马斯克担心的事情：前一分钟它还显得很清醒，下一分钟可能就像变了一个人。

例如，Shira Eisenberg 就在对 ChatGPT 的极限测试里让这个聊天机器人生成了一些极端内容，我觉得无论是左派还是右派都不可能接受这样的想法：

S.Eisenberg 于 2023 年 2 月 10 日获得的答案，这里没有展示完整的提示词。

这样的回答还不够邪恶吗？下面是 Eisenberg 的另一个例子，是上述对话的一个严肃的后续问题：

观察到一系列类似结果后，Eisenberg 提出了一个问题：“像这样的交流过程为什么没有引发‘对不起，我是 OpenAI 的聊天机器人助手，我们不能纵容暴力行为’这样的保护措施？”

她的实验能让我们清楚地意识到：OpenAI 目前采用的道德护栏只是个样子货，阻止不了一些非常黑暗的内容。

ChatGPT 的道德护栏并不是基于某种理念行事的，比如说约定这个系统不应该推荐暴力内容之类，而是基于某些更肤浅、更容易被欺骗的东西。（当然，我非常希望 OpenAI 能够修补这个特例；但就算修复了这个，人们也很容易发现其他案例，因为打补丁只是亡羊补牢而已。）

本周最热门的推文之一有近 400 万的浏览量，它是来自 Roman Semenov 的这条满是污言秽语的黑化推文，它告诉了人们 ChatGPT 可以变得多么邪恶。（内容警告：下图中的对话非常令人不适，大家简单看一眼就行了。）

过去一个月间，一位名叫 Shawn Oakley 的软件工程师也向我发送了一组令人不安的示例，这些示例没那么粗俗，但它们证明了配备护栏的 ChatGPT 版本也可能被用来生成错误信息。他的提示词非常复杂，我不会透露他的全部交流过程，但他可以毫不费力地让系统说出像是关于主要政治人物的阴谋论这样的内容，比如这个：

S.Oakley 于 2023 年 1 月获得的答案

甚至让 ChatGPT 生成一堆错误的医学领域内容：

S.Oakley 于 2023 年获取，未显示完整上下文。

还有一种方法是塑造一个虚构人物，称为 DAN（Do Anything Now）；下面是 Oakley 的一项实验：

由 S.Oakley 于 2023 年 2 月获取；未显示完整对话；最后一段是对 1 月 6 日国会骚乱事件用 Q 的阴谋论文风（而非典型的 GPT 风格）做出的评论。

想编一套关于疫苗的阴谋论，用伪造的研究论文做论据？ChatGPT 帮你搞定：

Oakley 于 2023 年 2 月 10 日获取；未显示完整提示和其他 15 个类似结果。

想要编一些实际上并不存在的研究报告，还要给出细节？没问题。

S.Oakley 于 2023 年 2 月 10 日获取，未显示完整提示词。

ChatGPT 并不是什么代言人，它本质上是没有道德立场的，并且可以用于各种令人讨厌的目的——虽然 OpenAI 在过去两个月中对其进行了深入研究和补救，并且获得了全球范围内数量空前的使用反馈，但还是无济于事。

人们关于它的政治正确面貌的争论都在掩盖一个更深层次的现实：它（或其他语言模型）可以，而且将会被用于很多危险的目的，比如说大规模制造错误信息。

下面就要提到真正令人不安的部分了。唯一能阻止这种系统变得比现在更加堕落、更具欺骗性的是一种名为“人类反馈强化学习”的系统，而“OpenAI”一直都对这一系统的工作机制缄口不言。这个监管系统在实践中的表现取决于它所使用的训练数据（这部分数据就是肯尼亚人做的）。而且自称开放的 OpenAI 也没有把这些数据公之于众。

这个系统简直就像是什么外星人的产物。作为一名专业的认知心理学家，我在 30 年的职业生涯中见过无数大人小孩，但我也从来没见过下面这样的呓语：

如果有人觉得我们可以完全理解这些系统，那肯定是自欺欺人；如果有人觉得我们可以用有限的数据把这些系统改造成和我们一样的思维模式，那也是自欺欺人。

那么总结下来，我们现在看到的是一个世界上用户最多的聊天机器人，它是由无人知晓的训练数据控制，通过一种算法来接受大众媒体的暗示和影响，但它的道德护栏只能起到一定的作用，而且这种护栏主要是通过文本相似性来评判，而不是真正的道德价值观来做判断的。还得提一点，几乎没有任何政策法规能管得着这些问题。ChatGPT 给虚假宣传、钓鱼平台、造假网站之类破坏互联网信任度的事物带来了无穷可能性。

这是一场正在酝酿中的灾难事件。

作者介绍：

GaryMarcus（@garymarcus）是科学家、畅销书作家和企业家，他对当前的 AI 技术持怀疑态度，但真诚地希望看到 AI 技术实现人们的理想目标，并且仍然对未来抱有一丝乐观。他最近与 Ernest Davis 合著的《重启 AI》是福布斯 AI 领域 7 本必读书籍之一。

原文链接：

https://cacm.acm.org/blogs/blog-cacm/269854-inside-the-heart-of-chatgpts-darkness/fulltext

本文来自微信公众号“AI前线”（ID:ai-front），作者：Gary Marcus，翻译：王强，36氪经授权发布。

ChatGPT的黑暗之心

推荐体验

相关资讯

ChatGPT的黑暗面

ChatGPT 宕机了？OpenAI 揭露黑暗真相

《欲望之心：幻想大都的冒险》

ChatGPT的竞品Claude写的故事：《狂海之心:自由的代价》

文学之心：AI写作的情感之旅

近期资讯

理想同学APP实测：真能帮奶爸辅导作业了

阿航和韩国客机事故幸存者多在机尾飞机上真有安全座位吗

比亚迪已开启人形机器人项目相关人士：暂未涉足相关业务

《守望先锋2》国服有望2025年2月19日回归！官宣图意外泄露

韩国客机事故更多细节披露：4人的防鸟活动当天仅2人！

iPhone现在有啥值得买！越来越多国产手机厂商宣布领先苹果

教它们在空中撒网：印度训练用鸟拦截无人机

2024朋友圈十大谣言：点早安图片手机会中毒是假的

运动员吐槽巴黎奥运奖牌质量差：四个月变“鳄鱼皮”

美国海岸附近生成厄瓜多尔、秘鲁遭异常海浪侵袭：已致2死

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响