当前位置:首页|资讯|ChatGPT|大语言模型

ChatGPT和其他重要大语言模型背后的秘密

作者:猜想笔记发布时间:2024-06-30

//

预训练模型

《 Attention is All You Need 》这篇研究论文中提出的 Transformer 模型对自然语言处理 (NLP) 的影响是深远的。它为 BERT、GPT-2 和 GPT-3 等后续模型奠定了基础,这些模型都建立在Transformer 架构之上并进行了扩展。这些进步为各种 NLP 任务带来了显著的性能提升。Transformer的影响塑造了我们今天处理语言建模的方式。

GPT-1

早在 2018 年,OpenAI就展示了他们的敏捷性,他们迅速调整了语言建模研究,以利用 Transformer 架构。这导致了GPT-1的推出,其中 GPT 代表“生成式预训练 Transformer”。

图片来源:原始 GPT-1论文

GPT-1 是一个重要的里程碑,因为它采用了生成式、仅解码器的 Transformer 架构。这种架构选择使模型能够创造性地、连贯地生成文本。

为了训练 GPT-1,该团队采用了一种混合方法。他们首先以无监督的方式对模型进行预训练,使其接触大量原始文本数据。这个预训练阶段使模型能够对自然语言中存在的统计模式和结构产生很强的理解。此后,该模型经历了有监督微调*(Fine-tuning)阶段,在该阶段,模型使用标记数据针对特定任务进行了进一步的细化。这个两步过程使 GPT-1 能够同时利用自监督学习的力量和人工标记数据的指导。

*有监督微调是指将预先训练的机器学习模型调整到特定任务或数据集上,以提高其性能的过程。

GPT-1作为GPT系列后续模型的基础作用非常重要,但此时研究人员距离后续的成功还相距甚远。

BERT

2019年,谷歌研究员提出的BERT(Bidirectional Encoder Representations from Transformers)带来了NLP领域的范式转变。BERT的影响是深远的,它融合了多种创新思想,将NLP性能推向了新的高度。

图片来源:原始BERT论文

BERT 的一项重要进步是其双向性,这使得它在进行预测时可以同时考虑输入和输出上下文。这种双向方法显著提高了模型理解单词之间关系和捕捉语言细微差别的能力。这种对上下文的整体看法如何增强了 BERT 在各种 NLP 任务中的表现,这真是令人着迷。

BERT 具有一致宽度的神经网络架构是另一个让我感到有趣的方面。这种设计选择使模型能够高度适应各种任务。网络的一致宽度实现了有效的参数共享,有助于高效的迁移学习和对特定下游任务的微调。这种灵活性证明了 BERT 经过深思熟虑的架构设计。

BERT 更令人印象深刻的是它对各种非结构化数据进行了预训练。这一预训练阶段使模型能够全面了解词语关系,从而能够捕捉语言使用的细微差别。通过从大量未标记的数据中学习,BERT 对自然语言中存在的统计模式和语义关系获得了宝贵的见解。

图片来源:原始BERT论文

BERT 的易用性是其在研究人员和从业者中广受欢迎的关键因素。通过添加输出层,可以轻松针对特定任务对预训练模型进行微调。这种简单且有效的微调功能使 BERT 成为NLP 应用的首选。它使研究人员和从业者能够在各种任务中取得最先进的成果,从而推动该领域的进一步发展。

GPT-2

OpenAI 于 2019 年发布了GPT-2,受到了人们的热切期待和极大兴奋,因为全世界见证了从 GPT-1 到当时令人震惊的 15 亿个参数的模型的显著飞跃(相比之下:今天 NVIDIA 提供的 Megatron-Turing 自然语言生成 (MT-NLG) 模型有5300 亿个参数)。

研究人员使用 Transformer 模型的变体在各种互联网文本语料库上训练 GPT-2 。该模型生成连贯且上下文相关的句子的能力确实非常出色。它的输出常常让人们怀疑它们是由人类制作的还是由模型本身制作的。GPT-2 的多功能性确实令人惊讶,它可以轻松处理各种任务,包括论文写作、问答、语言翻译,甚至诗歌创作。

GPT-2 的发布并非没有争议。OpenAI最初决定保留完整模型并仅发布较小版本,这无疑是一种谨慎的做法,其动机是担心潜在的滥用(目前他们对于较新的商业化 LLM 的意图并非如此)。人们确实担心 GPT-2 可能被用来生成误导性新闻文章、促进在线模仿或自动生成辱骂性和垃圾内容。这些担忧引发了围绕负责任地使用人工智能的必要而激烈的辩论。

基础模型

BERT 首次亮相时,就以最大的语言模型而备受关注,其参数数量高达 3.4 亿。然而,自 2018 年以来,NLP 研究人员一直致力于通过开发受缩放定律推动的越来越大的模型来进一步突破界限。

通过探索,研究人员发现这些较大的预训练语言模型 (PLM)(通常称为“大型语言模型” (LLM))展现出以前在较小模型中未曾见过的新兴能力。这种新兴行为的一个典型例子是 GPT-3,它展示了通过上下文学习解决少样本*任务的卓越能力。相比之下,GPT-2 在这一领域很难达到同样的效果。

*少样本学习是一种机器学习方法,它使模型能够从少量标记的例子中学习,并将其归纳为新的、看不见的任务或种类。

LLM 的出现引发了研究界的一场竞赛,研究人员努力开发最大的模型并使用更大的数据集。这种追求的驱动力是寻求更好地理解这种变化对这些模型功能的影响。它代表了发掘LLM 潜力和边界的集体努力。随着 LLM 可以作为许多 AI 应用程序的基础,它们也开始被称为基础模型。

GPT-3

OpenAI 于 2020 年推出了 GPT-3,其性能比前身 GPT-2 高出一个数量级,该系列八个模型中最大的模型拥有惊人的 1750 亿个参数。GPT-3不仅可以生成连贯的段落,还可以生成与上下文相关、风格一致且通常与人类撰写的内容难以区分的整篇文章。

图片来源:原始GPT-3论文

然而,除了令人瞩目的成就之外,GPT-3 也揭示了LLM 固有的挑战。它偶尔会产生有偏见、冒犯性或荒谬的输出,并且其响应可能无法预测。这些问题凸显了持续研究LLM 的安全性和伦理影响的重要性。

GPT-3 率先提出了使用 LLM 进行少样本学习的概念,无需大量特定于任务的数据或参数更新即可取得令人印象深刻的结果。后续的 LLM(如GLaM、LaMDA、Gopher和Megatron-Turing NLG)通过扩展模型大小进一步推进了少样本学习,从而在各种任务上取得了最先进的性能。然而,随着研究人员不断突破模型规模的界限,关于少样本学习所出现的能力,仍有许多需要探索和理解的地方。

PaLM(Pathways Language Model)

随着模型规模的扩大,各项任务的性能都会提高,同时也会释放新的功能。图片来源:谷歌研究公告

2021 年,谷歌研究院提出了 Pathways 愿景,旨在开发一个具有广泛领域和任务泛化能力的单一模型,同时保持高效率。作为这一愿景的一部分,他们推出了Pathways 语言模型 (PaLM),这是一个密集的解码器专用 Transformer 模型,拥有令人印象深刻的 5400 亿个参数。PaLM 已在众多语言理解和生成任务中进行了评估,在大多数任务中展示了最先进的少样本性能,而且通常领先优势显著。

ChatGPT 时刻

2022 年 3 月,OpenAI 发布了InstructGPT模型和一篇论文《训练语言模型,使其遵循 当时尚未引起人们注意的人类反馈的指令》。该模型不仅仅是 GPT-3 语言能力的扩展;它通过为架构注入遵循指令的能力,从根本上改变了架构。从本质上讲,InstructGPT 将 GPT-3 的语言能力与以任务为中心的遵从性的新维度相结合,为语言模型开发的未来树立了新标准。为了更好地理解书面指令,另一种革命性的技术,即从人类反馈中强化学习(RLHF),被用于微调 GPT-3。这是驱动 ChatGPT 的秘密武器!

历史性的时刻到了:2022 年 11 月,OpenAI在没有充分考虑后果的情况下将ChatGPT公开发布。

ChatGPT 是基于 GPT 系列(GPT-3.5和GPT-4)的对话模型,其训练方式与其姊妹模型 InstructGPT类似,但特别注重对话优化。与 InstructGPT 不同,ChatGPT 的训练数据包括人类生成的对话,其中用户和 AI 角色都扮演。这些对话以对话格式与 InstructGPT 数据集相结合,用于训练 ChatGPT。

为了找出模型中的任何弱点,OpenAI 进行了“红队”练习,OpenAI 和外部团队的每个人都试图破坏该模型。此外,他们有一个早期访问计划,让受信任的用户可以访问该模型并提供反馈。

在这股热潮之后,微软于2019 年与 OpenAI合作,并基于 ChatGPT 开发了 Bing 搜索引擎版本。与此同时,企业领导者突然对这项技术如何提高利润产生了兴趣。

图片来源:大型语言模型调查

ChatGPT 的出现引起了媒体和研究界的轰动。根据本文的研究, ChatGPT 发布后出现了急剧增长:在标题或摘要中包含“大型语言模型”的arXiv 论文发表数量平均从每天 0.40 篇增加到每天 8.58 篇。

追逐ChatGPT

继ChatGPT 之后,许多研究人员和科技公司加入了竞争,开始陆续发布 LLM。斯坦福大学制作了一个表格,列出了所有当前的 LLM,数量非常多,我们将在稍后介绍其中最好的。以下是 2023 年 2 月匆忙发布的几个重要的 LLM:

  • Cohere推出了其摘要产品的测试版,利用专门为该任务设计的定制 LLM。该模型允许用户摘要最多 18-20 页的文本,超越了 ChatGPT 和 GPT-3 的限制。
  • 谷歌发布了聊天机器人 Bard,该机器人由谷歌自己的对话应用语言模型 ( LaMDA ) 提供支持。但发布后不久,Bard 就因在技术视频演示中直接犯错而被停用。后来,谷歌推出了一个实验版本,首先供美国和英国用户使用。然后,它在全球范围内推出。
  • Meta将大型语言模型 Meta AI (LLaMA)引入了现场。与 GPT-3 的直接复制品不同,LLaMA 旨在为研究界提供可管理的大型语言模型。它提供了四种不同的尺寸,最大的变体包含 650 亿个参数,但仍然比 GPT-3 小得多。最初,LLaMA 并不打算开源,但通过 4chan 泄露引发了数千次下载的狂潮,并引发了在其基础上构建的 LLM 代理的突破性创新浪潮。

GPT-4

2023 年 3 月,OpenAI 发布了GPT-4,这是一项重大进步,扩展了 GPT 系列的功能。GPT-4 引入了对多模态信号的支持,允许输入文本以外的内容。与 GPT-3.5 相比,GPT-4在复杂任务上表现出更强的性能,并在各种评估指标上取得了显着的改进。

图片来源:GPT-4 技术报告

最近的一项研究对人为生成的问题进行了定性测试,以评估 GPT-4 的能力。结果显示,与之前的 GPT 模型(包括 ChatGPT)相比,它在各种困难任务中都表现出色。值得注意的是,由于进行了为期六个月的迭代对齐过程并在 RLHF 训练中加入了额外的安全奖励信号,GPT-4 在响应恶意或挑衅性查询时表现出了更高的安全性。

OpenAI通过实施干预策略来解决对 LLM 潜在问题的担忧。他们引入了诸如红队之类的机制来减轻有害或有毒内容的生成。此外,GPT-4 是在完善的深度学习基础设施上开发的,采用了改进的优化方法。一个值得注意的补充是引入了一种称为可预测缩放的机制,可以在模型训练期间用一小部分计算实现准确的性能预测。这些措施旨在解决幻觉、隐私问题和对模型的过度依赖等问题。

大语言模型的时代已经结束了吗?

GPT-4 发布后,OpenAI 首席执行官 Sam Altman表示,他认为超大模型的时代即将结束。Altman表示,不断增加模型大小并向其输入更多数据的方法已经达到了收益递减的临界点。OpenAI 面临的挑战与数据中心的物理限制及其构建更多数据中心的能力有关。GPU的缺乏就是个简单的例子。

Cohere 联合创始人 Nick Frosst 也赞同 Altman 的观点,他同意这种观点:“有很多方法可以让转换器变得更好、更有用,其中很多方法不需要向模型中添加参数。” Frosst 表示,新的 AI 模型设计或架构以及基于人类反馈的进一步调整是许多研究人员正在探索的有前途的方向。

就在最近,Meta推出了第一个基于 Yann LeCun 的更像人类的 AI 愿景的模型:联合嵌入预测架构 (I-JEPA)。I-JEPA 朝着提供广泛使用的 Transformer 架构的替代方案迈出了一步。这会将我们带入一个新时代吗?

这是值得关注的事情!

结论性思考

还有一个问题:我们是否正处于一个随时可能破裂并让我们陷入人工智能寒冬的人工智能泡沫之中?这个话题既激发了我们的想象力,也引发了一丝担忧。许多因素共同表明了泡沫现象的可能性:

人工智能受到的关注度极高,大量资金涌入初创公司,这些初创公司有时将人工智能视为神秘的护身符,仿佛说出这个神圣的词就能保证获得大量投资者的青睐。然而,在这种看似狂热的追求中,这些公司的盈利能力仍然是一个迫在眉睫的问号。

与此同时,公众和媒体的狂热兴趣放大了人工智能无处不在的感觉,并延续了一种夸张的主张和过高的期望的氛围。正如伦敦政治经济学院教授、《连接的成本》一书的合著者尼克·库尔德里告诉《图灵邮报》的那样:

“除了对微软及其低迷的搜索引擎 Bing 的明显好处之外,我认为 ChatGPT 是一个雄心勃勃的尝试,旨在‘推销’大语言模型及其与日常工作和生活的融合理念。我非常怀疑这是否会带来更有效、更值得信赖的搜索或信息检索形式。但它肯定会进一步推动拟人化人工智能的压力,这只会分散我们对当今大语言模型、AGI 和知识生产的真正辩论的注意力。

在这种喧嚣的漩涡中,人们几乎无法逃脱快速传播的研究浪潮,社交媒体上充斥着这样的推文:“我诞生了我自己的聊天机器人——看看我的 GitHub!”在这种嘈杂的声音中,人们越来越难以辨别敬业研究人员的真正贡献,也越来越难以真正掌握人工智能领域正在发生的真正变革。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1