OpenAI、谷歌“掰手腕” 大模型给人工智能装上“眼睛耳朵嘴巴”

作者：央广网发布时间：2024-05-15

央广网北京5月15日消息（记者牛谷月）北京时间15日凌晨1点，谷歌召开年度I/O开发者大会。根据谷歌官方统计，在这场110分钟演讲中，谷歌CEO桑达尔·皮查伊（Sundar Pichai）提及AI的次数高达121次，同时推出了一系列以AI为核心的产品和服务。而就在前一天，ChatGPT的开发公司OpenAI的首席技术官米拉·穆拉提（Mira Murati）进入直播室，发布了OpenAI的春季大更新，包括桌面版本的ChatGPT，以及可实时进行音频、视觉和文本推理的最新旗舰大模型GPT-4o。Google新发布的“AI全家桶”，更被视作是对GPT-4o的回击和“叫板”。

人类对AI的探索如火如荼，人机交互再次大迈步，打破了传统“语音助手”的桎梏。大模型就像给AI装上了“眼睛耳朵嘴巴”，从此你的快乐伤悲它都能“体会”。未来已经来临了吗？

“读取人类情绪”——向更自然的人机交互迈进一步

在OpenAI的春季发布会上，虽然大家没能见到GPT-5，但GPT-4o的出现仍然惊艳。据OpenAI官网介绍，GPT-4o中的“o”代表“Omni”，这是一个基于GPT-4之上的多模态大模型。

OpenAI称，它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

值得注意的是，GPT-4o能够与用户进行多样化的语气交互，并精准捕捉到用户的情绪变化。发布会上，OpenAI前沿研究部门主管陈信翰（Mark Chen）让GPT-4o聆听他的呼吸，聊天机器人侦测到他急促的呼吸，并且建议他不要“像吸尘器那样呼吸”，要放慢速度。随后Mark深呼吸一次，GPT-4o表示这才是正确的呼吸方式。同时，研究员巴雷特·佐夫（Barret Zoph）还演示了GPT-4o是如何通过前置摄像头观察用户的面部表情，分析其情绪的。

“GPT-4o不仅能够理解用户的语气，还能做到恰到好处的反应。”DCCI互联网研究院院长刘兴亮感慨道，“想象一下，GPT-4o在你紧张的时候能够安慰你，让你深呼吸，甚至开个小玩笑缓解你的压力。这种情感识别能力使得人机交互变得更加自然和亲切，仿佛我们身边有了一个懂我们心情的贴心朋友。”

而在一天后的谷歌I/O开发者大会上，谷歌紧跟其后，发布了一款名为Project Astra的谷歌AI助手。这款通用模型通过智能手机的摄像头捕捉并分析周围环境，还能与用户进行实时对话。在演示视频中，用户手持手机，将摄像头对准办公室的不同角落，并通过语言与系统进行交互。例如，当用户发出指令“请告诉我智能眼镜在哪里”时，Astra能够迅速识别物体，并与用户进行实时的语音交流。同时，当用户看向窗外，智能助手立刻就说出了用户的详细地址：“这儿显然是伦敦的国王十字路口区域。”它也可以理解绘画和图像，如可以对一个写在白板上的系统流程图给出意见“在服务器和数据库间添加缓存可以提高速度”。

DeepMind联合创始人兼首席执行官德米斯·哈萨比斯（Demis Hassabis）称，Project Astra是自己期待了几十年的AI助手的雏形，是通用AI的未来，“AI个人助理可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。”

刘兴亮指出：“虽然OpenAI的GPT-4o在自然语言处理能力上表现强大，但谷歌在多模态理解、数据丰富性和开发者支持方面也展现了强劲的竞争力。两者在各自擅长的领域均有显著优势，并不断推动人工智能技术的发展。”

快速响应！——接近人类对话时的响应时间

从“你的快乐伤悲它能体会”到“你的快乐伤悲它能体会并给出及时回应”，人工智能大模型的响应时间的缩短让人机交互更加丝滑。

在OpenAI发布会上，人们见到了GPT-4o更快的响应速度：能够在短至232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的反应速度几乎一致。“我们可以说GPT-4o是AI界的‘闪电侠’，速度快到令人发指。”刘兴亮分析，“相比之下，传统语音助手如Siri、Alexa以及各种‘同学们’在处理语音输入时，需要经过繁琐的音频转文本再转回音频的过程。而GPT-4o通过端到端的训练，直接处理所有输入和输出，实现了真正的毫秒级响应。”

记者了解到，在GPT-4o之前，使用ChatGPT的语音模式时，需要多个模型的接力处理：先将音频转换为文本，再进行“输入并输出文本”的处理，最后再将文本转换回音频。这种处理方式常导致信息的大量丢失，例如无法捕捉到语调、识别多个说话者或背景噪音，也无法生成笑声、歌唱或其他情感表达。而GPT-4o是OpenAI的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型，实现了所有输入和输出的处理都由同一个神经网络完成。

360集团创始人、董事长周鸿祎在其发表的视频中感慨：“这就带来了一个全新的体验，时延大概只有300毫秒左右，达到了人类和人类谈话的响应速度，这样不仅能听得懂你话里的情绪，在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”

国泰君安15日研报表示，GPT-4o作为基础性工具为更多创新应用提供了生长土壤。研报认为，对图像和视频的理解和高效的实时互动，一定程度对其他单一功能的AI软件有替代的可能性，GPTStore有望推出更多便捷应用，丰富应用商城生态。同时随着GPT在桌面端和移动端的持续渗透，AI助理应用有望更快普及，新型商业模式或将逐步推出。

OpenAI、谷歌“掰手腕” 大模型给人工智能装上“眼睛耳朵嘴巴”

推荐体验

相关资讯

周鸿祎谈GPT-4o：给人工智能装上了“眼睛耳朵嘴巴”

“有眼睛、有耳朵、有嘴巴”的AI？OpenAI最新发布！

科技观察｜装上“耳朵”和“眼睛”，ChatGPT要出“王炸”了？

谷歌大模型新宇宙：Gemini Ultra 新体验，誓与 OpenAI掰手腕

周鸿祎谈Sora视觉模型：给人工智能补上了“眼睛”

近期资讯

如何快速找回丢失的苹果手机：实用技巧与预防措施分享

提供智能停车服务，广州番禺长隆万博智慧商圈服务平台上线

尤瓦尔·赫拉利：AI真正的威胁，是官僚而不是终结

HEVO2.0无线传输新方案，猛玛传奇C2引领无线图传技术革新

真没想到，被支付宝这波花式夸夸戳中了…

京张铁路遗址公园“上新”，AI餐饮机器人为游客做煎饼

微信App 2024最后一更，逼近9.0？

年度机皇评选揭晓 3款产品脱颖而出

“探索三号”科考船三亚入列

现场揭秘！来自南医大的微创骨科手术机器人有多强？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响