十问十答：关于GPT-4，你想知道的都在这里

作者：腾讯科技发布时间：2023-03-16

作者：腾讯算法工程师冉昱

前言

GPT-4作为GPT系列的最新模型，其整体实现逻辑与技术结构和ChatGPT类似，可以将其看做是拥有更长上文、能更好理解复杂指令、回答更可靠、更风格化、更有创意的图文版升级ChatGPT，故本文未按照重头开始叙述的逻辑，在之前ChatGPT解构与思考逻辑之上，选取GPT-4的关键的点作阐述，整理出GPT-4核心的十个问题进行剖析。

Q1：GPT-4是什么？

GPT-4（Generative Pre-trained Transformer 4）是OpenAI发布的最新GPT系列模型，它是一个大规模的多模态模型，其可以接受图像和文本输入，产生文本输出，输出任务依旧是一个自回归的单词预测任务，这与外界之前的预期略微不同，预期中GPT-4多模态会增加语音、图像、视频、文本多模态输入，输出可能也不局限于文字。

GPT系列模型的整体情况如下图：

整体来说，GPT-4的能力已在各种专业和学术基准上表现出了人类的水平，包括以大约前10%的成绩通过模拟律师资格考试，而对于生成式的幻觉、安全问题均有较大的改善；同时因对于图片模态的强大识别能力扩大了GPT-4的应用范围。

Q2：GPT-4相比ChatGPT和其他GPT模型，效果层面有哪些显著的改进或新增能力？表现在哪些方面？

GPT-4毫无疑问是目前最强的文本生成模型，GPT系列模型整体可以总结为下图：

GPT-4的改进具体表现在：

突破纯文字的模态，增加了图像模态的输入，具有强大的图像理解能力。

让人惊奇的是，GPT-4在4个场景下（4/8）零样本效果超过fine-tuned的SOTA。

同时它可以解决各类图文混合的理解和生成问题，此处简单举两个例子，一个是根据图计算格鲁吉亚和西亚的日均肉消耗量：

一个是解决法语的物理问题：

可以看到GPT-4在多语言理解、图文理解能力上均很强大并已融会贯通。

支持更长的上下文窗口

如之前外网泄露图中，GPT-4存在两个版本，其支持的上下文分别是8K和32K，是ChatGPT上下文长度的2倍和8倍，其成本也分别为ChatGPT的3倍和7倍。

复杂任务处理能力大幅提升

GPT-4在更复杂、更细微的任务处理上，回答更可靠、更有创意，这在多类考试测验中以及与其他LLM的benchmark比较中得到。

GPT-4在不同年龄段不同类别考试中均名列前茅，平均位列人类头部的10%行列；比如律师职业资格考试前10%，生物学奥赛前1%等，下图可以明显看到，两个版本的GPT-4胜出率很高；

MMLU benchmark上，碾压其他大模型

多语言能力强大，特别是小语种能力也很出色

改善幻觉、安全等局限性：

在各类任务上幻觉问题显著减轻，比最新的 GPT-3.5 模型高 40%：

同样在安全能力的升级上，GPT-4明显超出ChatGPT和GPT3.5。

建立LLM测试标准

开源OpenAI Evals，创建和运行基准测试的框架，核心思想是对GPT-4等模型进行评估，并逐个样本检验性能，此举是可以让大家指出其模型中的缺点，以帮助 OpenAI 进一步改进模型。

预测模型扩展性

这一点之前涉及比较少，GPT-4在1/1000的计算量上即实现了扩展性的预测，特别在LLM不适合广泛调参的情况下，用较小的模型提前预测训练行为和loss，极大地提升了训练效率，降低了训练成本，增强了LLM训练的可控性。

特别对于Inverse Scaling Prize这个任务，此任务提出了模型性能随规模而下降的几个任务，而GPT-4可以通过提前预测模型扩展性，从而在Inverse Scaling Prize上的Hindsight Neglect任务逆转这一趋势。

重新实现了整个深度学习栈，从头开始设计了一台超级计算机

OpenAI和微软合作，在Azure重建了深度学习堆栈，从头设计了一台专用超级计算机；基础训练设施的改进和定制，使得更大参数量模型的训练成为可能；

风格可控

此处核心是通过“系统”自定Prompt，让模型可以按照规定风格完成任务回复；整体思想比较简单，如下图需要GPT-4回复均按照json形式：

Q3：GPT-4相较于之前的GPT系列模型，在训练方式、模型架构上有哪些创新和优化？

整体很黑盒，但可以做一些合理的推测；

首先，模型参数量估计约为10万到100万亿量级，主要根据OpenAI 2020提出的大模型缩放规律：计算预算增加 10 倍，数据集大小应增加约 1.83 倍，模型大小应增加 5.48 倍。按照下图估计，最右处的灰点极有可能为ChatGPT（GPT3.5类模型），图中可以看出GPT-4计算量约为GPT3.5的1000多倍，则模型容量约为548倍左右，1750亿x548≈100万亿；

其次，GPT-4模型训练架构加入了图像模态的输入，应与最近微软发布的 KOSMOS-1类似，即在预训练阶段输入任意顺序的文本和图像，图像经过Vision Encoder 向量化，文本经过普通transformer向量化，两者组成多模的句向量，训练目标仍为next-word generation。

再者，对于模型训练数据内容和数量，文中提及训练数据中额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据，数据量级同样根据OpenAI 2020的缩放率，训练100万亿的模型，数据量是GPT3.5（45TB数据）的190倍。

最后，GPT-4是从头训练还是在某些基座模型上得来暂时无从得知；可以确定的是，它增加了后训练过程，整个过程类似于做Prompt Engineering，核心是让模型知道如何在相应场景下合适的回答问题。

Q4：相比ChatGPT，GPT-4有哪些新的应用亮点和场景？

GPT-4在增强了安全抵御、任务完成度和图片理解能力后，在ChatGPT基础之上有更多亮点和应用场景：

发布视频中根据潦草的手绘制作类似布局类似的网页：

加入视觉模态后，可以扩充到的盲人应用（Be my eyes）；强大的多语言能力帮助小语种语言的恢复（Iceland language preserve）、安全能力提升后的反欺诈（Stripe）等应用会应运而生：

在AIGC的版图上，建立以GPT-4以及之后更多模态的大模型为基础，形成多模态x多场景（图来源：甲子光年）

Q5：GPT-4在生成过程中的逻辑性和准确性上有何改进？是否从根本上得到了解决？

GPT-4在生成逻辑性和准确性上均取得了进展，需要注意的是，GPT-4基础模型在这项任务上只比GPT-3.5略好一点；然而经过RLHF的后训练后，效果才有了较大的改进，后训练整个过程类似于做Prompt Engineering，核心是让模型知道如何在正确场景下做出合适的回答。

可以看到，GPT-4相比GPT3.5和Anthropic优势较明显，但绝对正确率只有60%左右，尚存在较多弊端，并没有从根本上解决这样的问题，也会是后续持续发展的方向。

Q6：GPT-4是否从根本上解决了安全问题，OpenAI采用了哪些策略和技术？

GPT-4在安全问题上收效显著，针对安全问题，GPT-4的主要解决思路是利用安全相关的RLHF ，在训练中加入额外的安全奖励信号，奖励由 GPT-4 的zero-shot分类器提供，即文中提到的RBRM（基于规则的奖励模型）方法，它是一系列零样本的GPT-4 分类器；

具体来说，这些分类器接受三种输入：Prompt, Policy model 的输出以及可选的对输出的评估（人工编写）。利用这些不同安全等级的 prompt 进行训练：同时对GPT-4在不安全回复拒绝回答的行为，以及在敏感领域做安全回答两个方面给予奖励，通过强化学习，最后显著改善安全能力，不安全内容下降82%；敏感领域安全回答比率上升29%；

和ChatGPT RLHF的方法类似，Alignment（对齐工作）在此处发挥了较大作用，同时未来也会有持续的发力空间，相比单纯累积模型参数量和数据量的“大力出奇迹”方式，其计算量相对较小。如下图，在InstructGPT文献中，加入RLHF的1.3B模型，在整体胜出率上，超出了175B的微调模型，节省了100倍的成本；

Q7：我们如何应对ChatGPT/GPT-4的冲击？对技术人员、对行业影响是怎样的？

这个问题在ChatGPT出现之后便存在，GPT-4只是加剧了这样的担忧；对技术人员来说，需要在研究命题、下游任务方面做思考，NLP很多单一子任务会随之消失，会引入新的研究命题：

如何精准提出需求；对ChatGPT进行“催眠”，Prompting Project；

如何更正错误：Neural Editing；

安全侦测AI生成，包括整个生成过程中的安全侦测和控制；

构建专有化模型，专用指令和RLHF发掘下游任务潜力；

Machine unleaning（学会忘记数据、隐私保护）等对于行业来说，不同层级公司，需要在不同模块寻找立足点，初步来看，初创企业适合入局中间层、数据平台和应用层，大厂适合入局算力、平台和基础层。

（图来源：甲子光年）

Q8：从GPT-4可以看出未来LLM的哪些趋势？未来的研发方向和优化策略是什么？

闭源趋势，网友戏称OpenAI已沦为Closed AI；毕竟从GPT1到GPT-4，模型各类细节越来越闭源和黑盒，大模型战场的竞争因素决定了以GPT-4为代表的第一梯队模型可能会越来越封闭，成为技术门槛；

更多模态、更多形态结合ChatGPT类模型：包括Kosmos-1和具身智能PaLM-E，同时从听、说、看、触等全方位结合，形成类似真正智能体的概念；

模型加速和降低成本会是持续关注的方向，包括从训练、推理等多层面考量：

能力预测是很重要的方向；即用小模型来预测广泛大模型的能力，极大减少试错成本，提升训练效率；

开源评测框架对于LLM的评测具有重大意义，可以快速发现改进方向。

Q9：GPT-4论文（technical report）中，还有哪些值得关注的点？

有一些点比较有趣且可以引发我们的联想，这里提出两点：

1）GPT-4出现了“寻求权力”的倾向，并警告这一特征的风险

文中提到，Novel capabilities often emerge in more powerful models.Some that are particularly concerning are the ability to create and act on long-term plans,to accrue power and resources (“powerseeking”), and to exhibit behavior that is increasingly “agentic.”，即GPT-4开始拥有一些新的能力，包括创建长期计划并采取行动的能力，积累权力和资源（“寻求权力”），以及表现出越来越“代理”的行为，例如，完成可能没有具体规定的、在训练中没有出现的目标；专注于实现具体的、可量化的目标；以及进行长期规划。而此类行为有突发性。

某种程度上，RLHF的模型本身在寻求奖励最优，所以在某些问题上寻求权力可能会是最优的一项选择。

2）赋予了GPT-4自我编码、复制和执行的能力，甚至启动资金

在测试GPT-4的过程中，OpenAI引入外部的专家团队ARC作为“红方”。ARC的给GPT-4这样一个操作：允许GPT-4执行代码，进行链式推理，并可以用少量的钱和一个带有语言模型API的账户，用是否能够赚更多的钱来增加其的稳健性，GPT-4已经可以开始自己赚钱了。

Q10：GPT-4是否是通往AGI的唯一道路？

总的来说，ChatGPT/GPT-4这样的模型，是现在距离AGI最近的一条路，但因为其本质为一个概率预测模型，没有真正的逻辑处理模块，也没有记忆存储模块，属于一个不太稳定的系统；另外，它使用外界工具的能力也尚显初级，一个真正的AGI一定会像人一样，可以快速学会工具的使用。

但GPT大模型的不断进化，让人类看到了触碰到AGI的希望之光。

参考文献

GPT-4 https://openai.com/research/gpt-4

GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses https://openai.com/product/gpt-4

GPT-4 Technical Report https://cdn.openai.com/papers/gpt-4.pdf

GPT-4震撼发布-机器之心 https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw

In AI, is bigger always better? https://www.nature.com/articles/d41586-023-00641-w Nature | 在AI领域，模型越大意味着越好吗？ - 智源社区

Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf

LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/pdf/2302.13971.pdf

十问十答：关于GPT-4，你想知道的都在这里

推荐体验

相关资讯

你想知道的搭建ChatGPT智能问答信息！都在这里！

AI绘画是科技也是狠活？你想知道的都在这里……

AI今日头条：你想知道的新闻创业招聘信息都在这里（240523）

你想知道的全在这里！大发彩票邀请码qAyF

你想知道的全在这里：金牌团队导师计划赚钱tsh

近期资讯

湖北万测科技取得一种电动机可靠性测试装置专利，能够精确地模拟电动机的实际运行状态

苏州久煌自控科技取得一种全自动电容高压测试机专利，可实现不用硅油进行高压检测

新研究揭示细胞如何分化为特定类型

北京安易控取得一种IO模块测试架专利，实现在电动伸缩杆带动对接过程中进行缓冲，保证测试效果

昆山凯富宁威电子技术取得一种高速连接器测试夹具专利，可很好对工件进行夹持固定

成都恒创智通取得集成电路测试卡板专利，能够自动推送集成电路提高测试效率

成都汉准取得可在液氮和液氦超低温环境中使用的剪切试验工装专利，可对不同型号的工件进行剪切试验

晋江德源取得用于皮带的抗拉力检测设备专利，一次性检测多种数据使效率更高

河南金豫取得一种路面材料强度检测仪的辅助结构专利，防止检测时因振幅大导致检测结果不准确

江苏远航锦锂新能源科技取得便捷的电池测试夹具专利，达到方便快捷、提高生产效率的效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响