科幻电影照进现实， GPT-4o震撼发布

作者：扬帆出海发布时间：2024-06-02

就在本周一，OpenAI公布了其最新的AI大语言模型，称该模型将使 ChatGPT 更智能、更易用。

新模型名为 GPT-4o，是GPT-4 模型的升级版。更重要的是，GPT-4o不仅可以免费使用，能力更是横跨听、说、读、写，丝滑流畅毫无延迟，就像在打一个视频电话。

OpenAI 首席技术官Mira Murati在舞台上直播演示了此次产品升级。来源：OpenAI。

超低延迟，多维处理

根据演示，GPT-4o 将提供一个可以进行实时口语对话的数字个人助理。它能使用文本和 “视觉”进行交互，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。文本、表格的输出能力依然十分惊人，而更新后最值得注意的是其对画面的实时处理能力。例如，用户输入一段视频，利用 GPT-4o进行实时画面解读，其输出速度之快让人咋舌，且画面描述十分准确。

在OpenAI新发布的一段宣传片中，一位有视力障碍的男士通过手持AI让其扮演自己的“眼睛”，ChatGPT会对拍摄到的现实画面进行实时详细解说，让该男士可以通过画面描述“看”到这个世界。

用户可以用ChatGPT对准身边的物品要求其用指定语言翻译，新模型也轻松搞定。

也能够根据图像做出更深层次的判断。例如，ChatGPT可以通过用户的手势判断石头剪刀布的输赢。

超强语音，实时交互

OpenAI 的高管还演示了 ChatGPT 的强大口语功能。例如，他展示了如何通过对话让ChatGPT对数学问题进行实时指导、讲睡前故事和获得编码建议。

ChatGPT 既能用自然、人声说话，也能用机器人的声音说话，还能唱出部分回答。甚至能够让两台ChatGPT进行对话，一方输入为客服，一方为客户，双方有模有样地进行协商并最终解决问题。

未来，GPT-4o的语音对话功能将不断改进，变得更加自然、实时，并有可能实现实时视频功能。例如，用户可以向 ChatGPT 展示一场实时体育比赛，让其进行实时讲解。

OpenAI计划在未来几周内推出具有这些新语音模式的alpha 版模型，Plus 用户将享有提前访问权限。

用户点击右下角的耳机图标即可开始语音对话

此外，ChatGPT还可以进行同声传译，其质量和速度都不错，各大翻译直呼“直接失业”。

"这是我们第一次在易用性方面迈出一大步”， Murati 在进行现场演示时说道，“这种交互变得更加自然，也更加容易。”

"新的语音（和视频）模式是我用过的最好用的功能，"OpenAI 首席执行官Sam Altman在发布后的一篇博文中写道，"感觉就像电影里演的那样，在现实里真实体验到还是让我有点吃惊的。AI能够与人类实现实时交互是一项难以达到的成就。"

AI也能通人性？

在发布会上，OpenAI还展示了新模型检测用户情绪的功能。例如，在ChatGPT聆听了一位高管的呼吸声后，似乎察觉到了他的紧张情绪，鼓励他冷静下来。而在听到员工夸张的呼吸声后，ChatGPT甚至用女音损了他一句 “ 你又不是吸尘器！ ”

很明显，新模型能听出发言人呼吸声的轻重，并且会富有情感的适时开玩笑。

除了通过声音识别情绪，新模型也能从用户面部表情准确识别其情绪。例如，有用户输入了几张自己不同表情的照片，让AI识别其情绪，而其输出的描述几乎完美。

同时，从上图可以看到，ChatGPT在对第二张照片进行描述时自动与第一张照片进行了比较。这就是新模型具备的记忆功能，它将可以“记住”过去与用户的对话并从中学习，使得每段对话都不再是孤立的存在。

AI竞赛日益激烈

新版本发布之际，OpenAI 力求在日益激烈的AI竞赛中保持领先地位。其主要竞争对手——包括谷歌和 Meta——正不断更新大型语言模型，优化Chatbot，并将AI技术应用到其他各种产品中。

就在OpenAI 发布会的第二天，谷歌的年度 I/O 开发者大会将在美国加州开幕。届时，谷歌将分享关于Android 15和AI的最新消息。预计谷歌将在会上宣布其 Gemini AI 模型的更新。与新的 GPT-4o 一样，谷歌的 Gemini 也是多模态的，这意味着它可以解释和生成文本、图像和音频。此外，下个月苹果备受瞩目的年全球开发者大会也接踵而至，届时苹果有望展示其最新的AI战略，尽管具体内容尚未对外公布。

对微软来说，GPT 新版本的发布无疑是个好消息，因为微软已经向 OpenAI 投资了数十亿美元，将其AI技术嵌入到微软自己旗下的产品中。

针对所有用户，OpenAI还推出了新的 MacOS 版 ChatGPT 桌面应用程序，旨在使用户操作更加方便快捷。只需一个简单的键盘快捷键（Option + Space），用户就可以立即向 ChatGPT 提问，也可以直接在应用程序中截图进行对话。

更新后的技术和功能将在未来几个月内推广到 ChatGPT。目前来看，虽然打着“对所有用户免费”的旗号，免费用户所能使用的功能还是有限的，且在使用新模型达到一定次数后，ChatGPT将自动恢复到GPT-3.5 。而Plus 用户的消息限制将是免费用户的 5 倍，团队和企业用户的限制将更高。

目前已有超过 1 亿人在使用 ChatGPT，但OpenAI的目标不止于此。此次更新大大优化了ChatGPT的使用体验，提升了交互能力，增强了语音对话功能，这将会为OpenAI吸引越来越多的用户。

最后，最近谷歌和 Meta 正将 AI 集成到更日常的消费类产品中（例如 Instagram 和 Google Assistant），OpenAI又推出此款新模型，由此可见，这些大型科技公司的技术正在向更普及和更易用的方向发展。

科幻电影照进现实， GPT-4o震撼发布

推荐体验

相关资讯

OpenAI的GPT-4o上场，科幻电影《Her》有了现实版

科幻电影变现实！OpenAI发布GPT-4o大模型，AI对话如同真人般流畅

OpenAI 发布 GPT-4o：免费版 GPT-4 如何带你「走进」科幻电影

电影里的人工智能照进现实？GPT-4o挑战苹果Siri

GPT-4o让科幻电影《Her》走向现实？对新技术不应该产生过分乐观的预测和期望

近期资讯

青田永禾阀门制造取得一种阀门铸件冲孔装置专利，提高冲孔精度

互联网大厂技术主管在管什么

天奈科技申请一种高堆积密度单壁碳纳米管粉体及制备方法专利，提高了干燥状态下的碳纳米管的堆积密度和收率

5年前突然被砍的微信功能，逐步回归了？

淘宝年度十大商品，是当代年轻人“拒绝内耗”的实录

分享我的淘宝高级产品笔试题，快看看你能做多少

服务有钱的客户

德州奥恒工贸取得电气配电箱高速数控冲孔机专利，实现配电箱表面高速打孔处理

宁波恒浩广取得一种储能柜铜排的冲压件模具专利，防止冲压件在冲压过程中发生偏移

营销回归人本位：Babycare最懂年轻父母的母婴品牌

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响