ChatGPT 已经无处不在。2022 年 12 月,总部位于美国旧金山的初创公司 OpenAI发布了这款网页应用,它几乎在一夜之间成为了热门话题。据估计,这是有史以来用户增长最快的互联网服务,在发布两个月后就捕获了 1 亿用户。我的家人甚至都在讨论 ChatGPT。
很快,微软与 OpenAI 达成了价值 100 亿美元的多年合作,这项技术现在正被内置到 Office 软件和必应搜索引擎中。搜索引擎霸主谷歌感受到了威胁并迅速作出了应对,它推出了自己的人工智能聊天机器人 Bard,由 LaMDA 模型驱动。
但 OpenAI 的突破并不是凭空而来的,ChatGPT,是迄今为止历经多年的一系列大型语言模型中最完善的迭代。
从 1980 年代到 1990 年代:递归神经网络
ChatGPT 是基于 GPT-3 模型的、一个由 OpenAI 开发的大型语言模型。语言模型是一种神经网络,它使用了海量的文本进行训练。
因为文本是由不同长度的字母和单词序列组成的,所以语言模型需要一种能够理解这类数据的神经网络。1980 年代发明的递归神经网络可以处理单词序列,但它们的训练速度很慢,而且会忘记序列前面的单词。
1997 年,计算机科学家塞普·霍克雷特(Sepp Hochreiter)和尤尔根·施米德杜伯尔(Jürgen Schmidhuber)发明了 LTSM(长短期记忆,Long Short-Term Memory)网络,解决了这个问题。这是一种具有特殊组件的递归神经网络,允许将序列前面的数据保留更长的时间。LTSM 可以处理数百个字长的文本串,但它们的语言技能有限。
(来源:STEPHANIE ARNETT/MITTR)
2017 年:Transformers
今天新一代大型语言模型背后的突破在于,谷歌的研究人员发明了 Transformers,这也是一种神经网络,可以跟踪每个单词或短语在序列中出现的位置。
单词的确切含义通常取决于在它之前或之后的其他单词的意思。通过跟踪这些上下文信息,Transformers 可以处理更长的文本字符串,并更准确地得出单词的真实含义。例如,“千层”在句子“一石激起千层浪”和“我爱吃千层蛋糕”中的意思是截然不同的。
2018-2019 年:GPT 和 GPT-2
OpenAI 的前两个大型语言模型的发布仅相隔几个月。该公司希望开发多技能、通用的人工智能,并相信大型语言模型是实现这一目标的关键一步。GPT(Generative Pre-trained Transformer 的缩写)成为了一座里程碑,击败了当时最先进的自然语言处理基准。
GPT 将 Transformer 与无监督学习结合在一起,后者是一种在未经标注的数据上训练机器学习模型的方法。这使得模型可以自己找出数据中的规律,而不需要人类告诉它它在看什么。以前在机器学习方面的许多成果都依赖于监督学习和标注数据,但人工标注数据的效率低下,限制了训练数据集的大小。
引发更大讨论的是 GPT-2。OpenAI 声称,自己非常担心人们会使用 GPT-2“产生带有欺骗性、偏见或侮辱性的语言”,以至于它不会发布完整的模型,再看看今天的一切,可谓是“人是物非”。
2020 年: GPT-3
GPT-2 令人印象深刻,但 OpenAI 的后续产品 GPT-3,更是让人大开眼界。它模仿人类生成文本内容的能力获得了巨大飞跃。GPT-3 可以回答问题、总结文档、生成不同风格的故事,在英语、法语、西班牙语和日语之间进行翻译等等。它对人类文字和语言能力的模仿是不可思议的。
最值得注意的一点是,GPT-3 的提升来自于大幅放大现有的技术,而不是发明新的技术。GPT-3 有 1750 亿个参数(在训练过程中得到调整的神经网络参数),而 GPT-2 只有 15 亿个参数。GPT-3 使用的训练数据也更庞大。
但是,从互联网上获取的训练文本也带来了新的问题。GPT-3 吸收了它在网上发现的许多虚假信息和偏见,在用户有意或无意的引导下,它会反过来输出这些有毒内容。正如 OpenAI 所承认的那样:“经过互联网内容训练的模型就会存在互联网规模的偏见。”
2020 年 12 月:有毒文本和其他问题
当 OpenAI 忙于与 GPT-3 的偏见作斗争时,科技界面临的遏制人工智能有毒倾向的压力是前所未有且与日俱增的。大型语言模型可以抛出虚假的文本,甚至是充满偏见的文本,这已经不是什么秘密了,但研究人员发现,解决这个问题并不在大多数科技巨头的待办清单上。
当谷歌人工智能伦理团队的联合主管蒂姆尼特·格布鲁(Timnit Gebru)与其他人共同撰写了一篇论文,强调了与大型语言模型(包括高计算成本)相关的潜在危害时,这个话题并没有受到公司高层的欢迎。2020 年 12 月,格布鲁遭到了开除。
2022 年 1 月: InstructGPT
OpenAI 试图通过强化学习来减少 GPT-3 生成错误信息和攻击性文本的数量,它根据人类测试员的喜好训练了一版模型。成果名为 InstructGPT,它可以更好地遵循用户的指示——这在人工智能术语中被称为“对齐(alignment)”——产生更少的攻击性语言,更少的错误信息和更少的错误。简而言之,InstructGPT 不会表现得像一个混蛋,除非用户要求它这样做。
2022 年 5 月-7 月: OPT、BLOOM
对大型语言模型的一个常见批评是,培训它们的成本高得可怕,除了世界上最有资源的实验室和公司之外,所有其他机构都难以建立一个模型。这引起了人们的担忧,即如此强大的人工智能是由企业团队闭关造出来的,没有经过适当的审查,也没有获得更广泛的研究社区的反馈和支持。
作为回应,一些合作性的项目也开发了大型语言模型,并将其免费发布给任何想要研究和改进这项技术的研究人员。Meta 创建并开源了 OPT 模型,一个重建 GPT-3 的产品。Hugging Face 领导了一个由大约 1000 名志愿者组成的合作联盟来打造和发布 BLOOM 模型。
2022 年 12 月: ChatGPT
ChatGPT 的爆火甚至让它的创造者 OpenAI 也感到所震惊。在 ChatGPT 发布的前一天,我有幸拿到了 OpenAI 发给我的演示,公司给它的定位只不过是 InstructGPT 的更新版本。
和 InstructGPT 模型一样,ChatGPT 的训练方法是使用来自人类测试者的反馈,而这些测试者对它的看法是流畅的、准确的、无攻击性的对话者。
实际上,这更像是 OpenAI 训练了 GPT-3 如何更好地掌控对话游戏,并邀请所有人来玩。自那时起,这场有趣的游戏吸引了数千万人。
支持:Ren
原文:
https://www.technologyreview.com/2023/02/08/1068068/chatgpt-is-everywhere-heres-where-it-came-from/