GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

作者：HyperAI超神经发布时间：2023-03-16

内容一览：GPT-4 犹如一记核弹，在 3 月 14 日引爆了整个科技圈。在这场核爆的中心，万众瞩目的 GPT-4 狂秀肌肉，而在核爆的外围，谷歌等众神虎视眈眈，动作不断。

关键词：GPT-4 谷歌多模态模型

本文首发自 HyperAI超神经微信公众号~

美东时间 3 月 14 日，OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础。OpenAI 称，GPT-4 能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已表现出人类水平。

GPT-4 突袭落地：三大特性吸睛

GPT-4 此次更新，主要有三个飞跃式提升的新特性：文字输入限制提升、具备识图能力以及更强的推理能力。

内容更长更丰富

据 OpenAI 说法，GPT-4 能够处理超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道，此特性允许创建长篇内容，例如文章和博客，能够为企业和个人节省时间和资源。

此外，GPT-4 对大量文本的处理使扩展对话成为可能，这意味着，在服务业等行业中，人工智能聊天机器人可以对客户的查询提供更详细、更具洞察力的响应。同时，此特性还能进行高效地文档搜索和分析，从而成为金融、法律和医疗保健等行业的有利工具。

更具推理能力

OpenAI 表示，GPT-4 生成的答案错误更少，正确性要比 GPT-3.5 高 40%。同时，GPT-3.5 与 GPT-4 在闲聊时差别不大，但若任务够复杂，GPT-4 要比 GPT-3.5 更可靠、更有创意且能处理更多微妙指令。据悉，GPT-4 参加了多种基准考试测试，其中在 Uniform Bar Exam、LSAT 等考试中，得分要高于 88% 的应试者。

亮眼新特性：多模态

除了答题能力更胜一筹之外，GPT-4 另一个亮眼的特性就是可以接受文本和图像形式的输入，图像类型可以是照片、图表以及屏幕截图等。比如以下例子：

问题：这幅图有什么好笑的? 逐条描述它。

GPT-4 回答：该图像显示了一个包含三个图片的「 Lightning Cable 」适配器。

图1：一个智能手机与 VGA 连接器（一个大型，蓝色，15 针连接器通常用于计算机显示器）插入其充电端口。

图2：「 Lightning Cable 」适配器的封装，上面有一个 VGA 连接器的图片。

图3：VGA 连接器的特写镜头，最后是一个小型 Lightning 连接器（用于为 iPhone 和其他苹果设备充电）。

这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬性。

需要注意的是，此特性还处于研究者预览版本，并没有对外开放，OpenAI 尚未透露开放时间。

「它并不完美」

在介绍 GPT-4 的新功能的同时，OpenAI 也坦言了它的一些局限性。与之前版本的 GPT 一样，GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等问题。换句话说，目前来看 GPT-4 并不完美。但 OpenAI 也表示，这些都是他们正在努力解决的问题。

多模态模型：谷歌抢先上「前菜」

虽然多模态是 GPT-4 一大亮眼特性，但不得不说，GPT-4 并不是唯一的多模态模型。

微软 AI 技术专家 Holger Kenn 介绍所谓多模态模型，是其不仅可以将文本相应地翻译成图像，还可以翻译成音频和视频。而早在本月初，谷歌就已发布史上最大的视觉语言模型——PaLM-E (Pathways Language Model with Embodied)，一个可用于机器人的嵌入式多模态语言模型。PalM-E 整合了 540B 的 PaLM 语言模型和 22B 的 ViT 视觉模型，因此具有 562B 参数。

研究人员在多个任务，包括机器人操作规则、视觉问答和图像字幕中等进行了端到端的训练，评估结果表明该模型能够能有效地解决各种推理任务，并在不同的观察模态和多个实体上表现出了「正向转移 (positive transfer)」，并且该模型除了接受机器人任务训练，还在视觉-语言任务上有出色的表现。

展示示例中，当人类发出「把抽屉里的薯片拿给我」的指令时，PaLM-E 可以为一个装有机械臂的机器人生成一个行动命令并执行行动，其通过分析来自机器人摄像头的数据实现，而无需对场景进行预处理。

除了赋予机器人以上能力，PaLM-E 本身也是视觉语言模型，可以看图说故事，或者依据图片内容回答问题。

多模态模型等同「iPhone 」发布？

如今看来，整个 AI 领域正在紧锣密鼓地开展军备赛。面对 ChatGPT 的爆火，谷歌紧急发布 Bard 步步紧逼，近日又再次反击，开放自家的大语言模型 API 「PaLM API」，同时还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。

虽然 OpenAI CEO Sam Altman 前不久在接受采访时，仍对 GPT-4 的发布时间保持神秘，宣称「我们要在发布时，确定它是安全且负责任的」，但 GPT-4 这一波突袭，难免让人猜测是否是由于面对谷歌等巨头不断地反击和围剿，迫使它的步伐加速。

需要注意的是，Sam 采访中还谈到一个观点，人工智能的下一个进化阶段正是多模态大模型的到来。「我认为这将是一个大趋势...更普遍的是，这些强大的模型将成为真正的新技术平台之一，这是自移动平台以来我们没有拥有过的。」

此次 GPT-4 的重磅发布，是否标志着多模态模型时代正式到来，尚需要时间证明，但其强大的能力已经开始让很多开发者甚至普通人担忧自己是否会被其取代。这一点，或许微软德国 CEO Marianne Janik 几天前的公开言论可以作为答案，她认为当前 AI 发展就像当年「iPhone 出现」，同时，她也明确表示这不是要取代工作，而是要以与以前不同的方式完成重复性任务。

「变革会使得传统的工作模式发生变化，但我们也应该看到，这种变化增加了很多新的可能性，因此，也会出现让人兴奋的新职业。」

参考链接：

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge