GPT-4：颤抖吧人类！请接受生产力又一里程碑式的飞跃！

作者：BFT白芙堂机器人发布时间：2023-03-16

原创 | 文BFT机器人

美国当地时间3月14日，让数亿ChatGPT用户燥候已久的GPT-4终于生出来了！

它对比现有的大型语言模型，包括下一代（SOTA，State Of The Arts）模型而言，可以用“完胜”两个字来形容。用OpenAI官方自己的话来说，“GPT-4是我们迄今为止最强大、对齐最好的模型”。

这次的宣发，OpenAI官方在GPT-4的介绍性网页中，直接给用户投送了“说明书大礼包”：

网页地址：https://openai.com/waitlist/gpt-4-api

GPT-4技术报告

https://cdn.openai.com/papers/gpt-4.pdf

System card

https://cdn.openai.com/papers/gpt-4-system-card.pdf

ChatGPT Plus 体验

https://chat.openai.com/chat

GPT-4的API waitlist

https://openai.com/waitlist/gpt-4-api

GPT-4 demo视频

https://www.youtube.com/watch?v=outcGtbnMuQ

GPT-4背后的开源评估框架Evals

https://github.com/openai/evals

总之，其内容之全是生怕你看不懂，更怕你看懂了不用。

01

GPT-4和GPT-3.5的区别在哪里？

从官网给出的三项不同的能力直观对比来看

推理能力：GPT-4＞Default=Legacy
速度：Default＞GPT-4=Legacy
语言精炼：GPT-4＞Default＞Legacy

Logo的变化

为了更加清晰的展示GPT-4对比GPT-3.5的“进化”，OpenAI官方做了一系列的基础测试，让模型们考试，甚至直接考人类的试。

语言能力

作为一款语言模型，为了考验其除了英语以外的其他语种的表现，OpenAI官方安排了一场考试，使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。

结果显示，GPT-4在测试的26种语言中，有24种的都优于对比的其他语言模型（Chinchilla，PaLM），不仅仅限于英语，甚至是拉脱维亚语、威尔士语和斯瓦希里语等低资源语言GPT-4也成功拿下。

高级推理能力

而为了更好的展现GPT-4在推理能力上质的飞跃，OpenAI扒出了最新公开的奥林匹克竞赛题、AP自由答题等试题，甚至于加上了2022-2023年版的模拟考试题，以增进对这两种模型的理解。

测试的结果也显而易见，GPT-4赢麻了。在律师模拟考试中，GPT-3排列末位10%左右，而GPT-4挤进了前10%左右。可以说对比GPT-4这个过于耀眼的优等生，连曾经的“顶流”GPT-3.5都显得有些黯然失色了。

功能增加

而对于月活九位数的ChatGPT用户们而言，最关心的当然还是新功能的增加。

最大的改变就是不再只接受文本了！GPT-4具备处理文本和图像的能力，用户可指定各种视觉或语言任务。

它可根据由文本和图像交替组成的输入，生成自然语言、代码等文本输出。在生成带文本和图片的文档、图表或截图方面，GPT-4与纯文本输入一样出色，甚至还可利用测试时技术（如少量标注数据和思维链提示）提高性能。目前，就官网上给予的7个视觉输入的例子展示来看，图像输入仍在研究预览阶段，未来可能会有更大的提升。

此外，GPT-4不仅可以处理更长的字符长度，其长度限制已提升至32K tokens，即能处理超过25000个单词的文本，还能够支持长格式内容的创建、扩展对话、文档搜索和分析等应用。

安全性提升

在安全性方面，为了确保GPT-4回答的准确性和安全性，OpenAI公司与医学、地缘政治等敏感领域的50余位专家合作，并改进了监控框架。

与GPT-3.5相比，GPT-4的安全特性得到了显著的改善，其缓解措施使模型响应禁止内容请求的可能性降低了82%。此外，根据OpenAI的政策，GPT-4对敏感请求（如医疗建议和自我伤害）的响应频率提高了29%。