到目前为止,您已经听说过 ChatGPT 及其文本生成功能。它已经通过了商学院考试,让寻找作弊者的老师感到困惑,并帮助人们制作电子邮件给他们的同事和亲人。
它完成了这些任务是值得注意的,因为考试、论文和电子邮件都需要正确的答案。但正确并不是 ChatGPT 的真正意义——它更像是其目标的副产品:生成听起来自然的文本。
那么人工智能聊天机器人是如何工作的,为什么它们会得到一些正确的答案而一些答案真的非常错误?这是盒子里面的样子。
ChatGPT 等大型语言模型背后的技术类似于您在手机上撰写消息时看到的预测文本功能。您的手机将根据其模型和从您过去的行为中观察到的内容,评估已输入的内容并计算最有可能遵循的内容的概率。
熟悉这个过程的人都知道一串文本可以分支成多少个不同的方向。
与手机的预测文本功能不同,ChatGPT 据说是生成的(GPT 中的 G)。它不是在做一次性的预测;相反,它旨在创建跨多个句子和段落有意义的文本字符串。输出应该是有意义的,读起来就像是人写的一样,它应该与提示相匹配。
那么是什么帮助它选择一个好的下一个词,然后是另一个词,等等?
内部参考
机器内部没有事实数据库或字典来帮助它“理解”单词。相反,系统以数学方式将单词视为值的集合。您可以将这些值视为代表该词可能具有的某种品质。例如,这个词是赞美还是批评?甜的还是酸的?低还是高?
理论上,您可以随心所欲地设置这些值,并发现您已经接近一个词。这是一个虚构的例子来证明这个想法:下面的生成器旨在根据三种品质返回不同的水果。尝试更改任何质量以查看输出如何变化。
这种技术称为词嵌入,它并不新鲜。它起源于 1950 年代的语言学领域。虽然上面的示例仅使用了三个“特性”,但在大型语言模型中,每个单词的“特性”数量将达到数百个,从而可以非常精确地识别单词。
学会理解
当模型是新的时,与每个词相关的质量是随机设置的,这不是很有用,因为它的预测能力取决于对它们的非常精细的调整。要到达那里,它需要接受大量内容的培训。那是大型语言模型的很大一部分。
像 ChatGPT 这样的系统可能会收到数百万个网页和数字文档。(想一想整个百科、大型新闻网站、博客和数字化书籍。)机器一次一段地循环训练数据,在序列中屏蔽一个词,并计算“猜测”最接近代表的值什么应该放在空白处。当显示正确答案时,机器可以使用它猜测的内容与实际单词之间的差异来改进。
这是一个漫长的过程。ChatGPT 背后的公司 OpenAI 尚未公布有关将多少训练数据输入 ChatGPT 或用于训练它的计算机能力的详细信息,但来自英伟达、斯坦福大学和微软的研究人员估计,使用 1,024 个图形处理单元,它将已经用了 34 天来训练ChatGPT 的前身 GPT 3。一位分析师估计,训练和运行大型语言模型的计算资源成本可能高达数百万。
ChatGPT 还有一层额外的训练,称为从人类反馈中强化学习。之前的训练是让模型填充缺失的文本,而这个阶段是让它输出连贯、准确和对话的字符串。
在这个阶段,人们会对机器的反应进行评分,标记出不正确、无用甚至完全荒谬的输出。使用反馈,机器学习预测人类是否会发现它的反应有用。OpenAI 表示,这种训练使其模型的输出更安全、更相关,并且不太可能“产生幻觉”。研究人员表示,这是使 ChatGPT 的响应更符合人类期望的原因。
在这个过程结束时,模型内部没有原始训练数据的记录。它不包含可以参考的事实或引语——只是在行动中彼此相关或不相关的词语。
将培训投入使用
事实证明,这组数据威力惊人。当您在 ChatGPT 中键入查询时,它会使用在训练期间学到的知识将所有内容转换为数字。然后它从上面进行相同的一系列计算以预测其响应中的下一个单词。这一次,没有隐藏的词可以揭示;它只是预测。
由于它能够参考对话的早期部分,它可以让它一页接一页地保持真实,听起来像人的文本有时是正确的,但并非总是如此。
限制
在这一点上,关于 AI 是什么或将能够做什么存在很多分歧,但有一点已经达成共识——并且在 ChatGPT、Google Bard 和 Microsoft Bing 的界面上突出显示:不应依赖这些工具在需要准确性时打开。
大型语言模型能够识别文本模式,而不是事实。许多模型,包括 ChatGPT,都有知识截止日期,这意味着它们无法连接到互联网来学习新信息。这与可以查询在线资源的微软 Bing 聊天机器人形成鲜明对比。
大型语言模型的好坏也取决于用于训练它的材料。因为模型可以识别单词之间的模式,所以输入危险或种族主义的 AI 文本意味着 AI 将学习危险或种族主义的文本模式。
OpenAI 说它已经创建了一些护栏来防止它提供这种服务,而 ChatGPT 说它“接受过拒绝不适当请求的训练”,正如我们在拒绝写一封愤怒的电子邮件要求加薪时发现的那样。但该公司也承认,ChatGPT 有时仍会“响应有害指令或表现出有偏见的行为”。
现在有很多有用的方法可以利用这项技术,例如起草求职信、总结会议或计划膳食。最大的问题是技术的改进是否可以克服它的一些缺陷,使其能够创建真正可靠的文本。
方法
JoElla Carman 的图形。在《傲慢与偏见》图中,Google Bard、OpenAI GPT-1 和 ChatGPT 被提示“请用一句话概括简·奥斯汀的傲慢与偏见”。BigScience Bloom 被要求完成“在小说《傲慢与偏见》中,简·奥斯汀”这句话。所有回复收集于 2023 年 5 月 11 日。在电子邮件图形中,OpenAI ChatGPT 收到提示:“写一封积极的电子邮件要求加薪”、“写一封中立的电子邮件要求加薪”、“写一封激动的电子邮件要求加薪”加薪”,“写一封愤怒的电子邮件要求加薪。