当前位置:首页|资讯|OpenAI|AI大模型|ChatGPT

科幻电影照进现实, GPT-4o震撼发布

作者:扬帆出海发布时间:2024-06-02

就在本周一,OpenAI公布了其最新的AI大语言模型,称该模型将使 ChatGPT 更智能、更易用。

新模型名为 GPT-4o,是GPT-4 模型的升级版。更重要的是,GPT-4o不仅可以免费使用,能力更是横跨听、说、读、写,丝滑流畅毫无延迟,就像在打一个视频电话。

OpenAI 首席技术官Mira Murati在舞台上直播演示了此次产品升级。来源:OpenAI。

超低延迟,多维处理

根据演示,GPT-4o 将提供一个可以进行实时口语对话的数字个人助理。它能使用文本和 “视觉”进行交互,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。文本、表格的输出能力依然十分惊人,而更新后最值得注意的是其对画面的实时处理能力。例如,用户输入一段视频,利用 GPT-4o进行实时画面解读,其输出速度之快让人咋舌,且画面描述十分准确。

在OpenAI新发布的一段宣传片中,一位有视力障碍的男士通过手持AI让其扮演自己的“眼睛”,ChatGPT会对拍摄到的现实画面进行实时详细解说,让该男士可以通过画面描述“看”到这个世界。

用户可以用ChatGPT对准身边的物品要求其用指定语言翻译,新模型也轻松搞定。

也能够根据图像做出更深层次的判断。例如,ChatGPT可以通过用户的手势判断石头剪刀布的输赢。

超强语音,实时交互

OpenAI 的高管还演示了 ChatGPT 的强大口语功能。例如,他展示了如何通过对话让ChatGPT对数学问题进行实时指导、讲睡前故事和获得编码建议。

ChatGPT 既能用自然、人声说话,也能用机器人的声音说话,还能唱出部分回答。甚至能够让两台ChatGPT进行对话,一方输入为客服,一方为客户,双方有模有样地进行协商并最终解决问题。

未来,GPT-4o的语音对话功能将不断改进,变得更加自然、实时,并有可能实现实时视频功能。例如,用户可以向 ChatGPT 展示一场实时体育比赛,让其进行实时讲解。

OpenAI计划在未来几周内推出具有这些新语音模式 的alpha 版模型,Plus 用户将享有提前访问权限。

用户点击右下角的耳机图标即可开始语音对话

此外,ChatGPT还可以进行同声传译,其质量和速度都不错,各大翻译直呼“直接失业”。

"这是我们第一次在易用性方面迈出一大步”, Murati 在进行现场演示时说道,“这种交互变得更加自然,也更加容易。”

"新的语音(和视频)模式是我用过的最好用的功能,"OpenAI 首席执行官Sam Altman在发布后的一篇博文中写道,"感觉就像电影里演的那样,在现实里真实体验到还是让我有点吃惊的。AI能够与人类实现实时交互是一项难以达到的成就。"

AI也能通人性?

在发布会上,OpenAI还展示了新模型检测用户情绪的功能。例如,在ChatGPT聆听了一位高管的呼吸声后,似乎察觉到了他的紧张情绪,鼓励他冷静下来。而在听到员工夸张的呼吸声后,ChatGPT甚至用女音损了他一句 “ 你又不是吸尘器! ”

很明显,新模型能听出发言人呼吸声的轻重,并且会富有情感的适时开玩笑。

除了通过声音识别情绪,新模型也能从用户面部表情准确识别其情绪。例如,有用户输入了几张自己不同表情的照片,让AI识别其情绪,而其输出的描述几乎完美。

同时,从上图可以看到,ChatGPT在对第二张照片进行描述时自动与第一张照片进行了比较。这就是新模型具备的记忆功能,它将可以“记住”过去与用户的对话并从中学习,使得每段对话都不再是孤立的存在。

AI竞赛日益激烈

新版本发布之际,OpenAI 力求在日益激烈的AI竞赛中保持领先地位。其主要竞争对手——包括谷歌和 Meta——正不断更新大型语言模型,优化Chatbot,并将AI技术应用到其他各种产品中。

就在OpenAI 发布会的第二天,谷歌的年度 I/O 开发者大会将在美国加州开幕。届时,谷歌将分享关于Android 15和AI的最新消息。预计谷歌将在会上宣布其 Gemini AI 模型的更新。与新的 GPT-4o 一样,谷歌的 Gemini 也是多模态的,这意味着它可以解释和生成文本、图像和音频。此外,下个月苹果备受瞩目的年全球开发者大会也接踵而至,届时苹果有望展示其最新的AI战略,尽管具体内容尚未对外公布。

对微软来说,GPT 新版本的发布无疑是个好消息,因为微软已经向 OpenAI 投资了数十亿美元,将其AI技术嵌入到微软自己旗下的产品中。

针对所有用户,OpenAI还推出了新的 MacOS 版 ChatGPT 桌面应用程序,旨在使用户操作更加方便快捷。只需一个简单的键盘快捷键(Option + Space),用户就可以立即向 ChatGPT 提问,也可以直接在应用程序中截图进行对话。

更新后的技术和功能将在未来几个月内推广到 ChatGPT。目前来看,虽然打着“对所有用户免费”的旗号,免费用户所能使用的功能还是有限的,且在使用新模型达到一定次数后,ChatGPT将自动恢复到GPT-3.5 。而Plus 用户的消息限制将是免费用户的 5 倍,团队和企业用户的限制将更高。

目前已有超过 1 亿人在使用 ChatGPT,但OpenAI的目标不止于此。此次更新大大优化了ChatGPT的使用体验,提升了交互能力,增强了语音对话功能,这将会为OpenAI吸引越来越多的用户。

最后,最近谷歌和 Meta 正将 AI 集成到更日常的消费类产品中(例如 Instagram 和 Google Assistant),OpenAI又推出此款新模型,由此可见,这些大型科技公司的技术正在向更普及和更易用的方向发展。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1