刷题成绩达哈佛标准，GPT-4 要让谷歌工程师熬夜了

作者：砍柴网发布时间：2023-03-17

来源：动点科技

当地时间 3 月 14 日，OpenAI 携 GPT-4 来了！随着 ChatGPT 聚焦全球目光，这一次的产品发布自然也备受关注。

据了解，OpenAI 花了 6 个月时间使 GPT-4 更安全、更具一致性。在内部评估中，与 GPT-3.5 相比，GPT-4 对不允许内容做出回应的可能性降低 82%，给出事实性回应的可能性高 40%。GPT-4 引入了更多人类反馈数据进行训练，不断吸取现实世界使用的经验教训进行改进。

作为一款所谓的 " 高体验、强能力的先进 AI 系统 "，在官方演示中，GPT-4 几乎就只花了 1-2 秒的时间，识别了手绘网站图片，并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。

除了普通图片，GPT-4 还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等，例如根据专业论文直接给出论文摘要和要点。正因此，OpenAI 官方称，GPT-4 是 OpenAI 扩展深度学习的最新里程碑。

值得一提的是，GPT-4 虽然于 14 日才正式公开，但早在一个月前，微软的搜索引擎必应就已经在 GPT-4 上运行。微软表示，" 如果您在过去五周内的任何时间使用过新版必应，那么您已经体验过 GPT-4 的早期版本。"

多模态学习的最新成果

OpenAI 宣称，GPT-4 是一个大型多模态（接受图像和文本输入，发出文本输出）模型，我们首先需要弄清楚，何为模态？

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。

多模态学习从 1970 年代起步，经历了几个发展阶段，在 2010 后全面步入深度学习阶段。

OpenAI 表示，在过去两年里，他们重构了整个深度学习堆栈，并与微软 Azure 合作，共同设计了一台超级计算机。一年前，OpenAI 训练了 GPT-3.5，作为整个系统的首次 " 试运行 "。

目前，GPT-4 可以可以让用户指定任何视觉或语言任务，然后生成文本输出（自然语言、代码等），给定的输入包括带有文字和照片的文件、图表或屏幕截图，GPT-4 表现出与纯文本输入类似的能力。比如图表分析、总结概括。

强悍的学习力

虽然在许多现实场景中 AI 仍不如人类，但 GPT-4 在许多专业和学术基准上都呈现了人类水平的表现。以美国 BAR 律师执照统考为例，GPT3.5 可以达到 10% 水平，GPT-4 可以达到 90% 水平。在 GPT-3.5 版本模型下，它的 SAT 成绩只能排倒数 10% 的水平，然而 GPT-4 模型可以超越 90% 考生的水平。如果仅以分数作为衡量，GPT-4 已经差不多达到了美国顶尖名校的入学标准。

不仅如此，GPT-4 的语言能力同样令人惊叹。OpenAI 称，在测试的 26 种语言中，GPT-4 在 24 种语言方面的表现均优于 gpt-3.5 等其他大语言模型的英语语言性能。其中 GPT-4 的中文能够达到 80.1% 的准确性，而 gpt-3.5 的英文准确性仅为 70.1%，GPT-4 英文准确性提高到了 85.5%。

在 API 方面，GPT-4 还开放了一个使用功能，允许修改 " 系统提示 "。通过修改系统提示，GPT-4 就可以展现出更多样的性格，而不会像先前那样一板一眼。

与此同时，OpenAI 正在开源其软件框架 OpenAI Evals，用于创建和运行评估 GPT-4 等模型的基准，同时逐个样本检查其性能。用户可以应用它来跟踪不同模型版本（现在将定期推出）和不断发展的产品集成的性能。

不足之处

大模型的发展趋势，除了更好的性能表现外，关键的突破就是多模态，GPT-4 此次在多模态方面相比前代已经进步了不少。然而，GPT-4 目前只能输入图片内容，但是输出的仍是文字。图片、视频等跨模态的生成形式，GPT-4 尚不具备。

而且，与前一代一样，GPT-4 是基于 2021 年 9 月之前的数据训练的，所以 GPT-4 对于 2021 年 9 月之后发生的事件仍然缺乏有效理解，也不会从其经验中进行学习。OpenAI 表示："GPT-4 仍有许多已知的局限性，我们正在努力解决，例如社会偏见、幻觉和对抗性提示。"

OpenAI 承认，GPT-4 与早期的 GPT 模型具有相似的局限性，它仍然不完全可靠，可能会存在推理错误。不过 GPT-4 相对于以前的模型已经有比较显著的改善了。OpenAI 对不同模型进行了内部对抗性真实性测试，具体来看，进行了涵盖学习、技术、写作、历史、数学、可惜等九类测试，准确度为 1.0 意味着模型的答案被判断为与人类理想回答一致。

目前，GPT-4 没有免费版本，仅向月订阅费 20 美元的 ChatGPT Plus 用户及企业和开发者开放。ChatGPT Plus 用户将获得有使用上限的 GPT-4 权限。OpenAI 将根据实际需求和系统性能调整确切的使用上限，但预计容量将受到严重限制。