Open AI发布实时响应的GPT-4o AI模型国产手机AI语音助手能赶上吗？

作者：和讯网发布时间：2024-05-15

北京时间5月14日凌晨，Open AI公布了最新的GPT-4o人工智能模型，其中“o”代表“Omnimodel”（全能模型）。据悉，GPT-4o提供了GPT-4同水平的智能，并改进了文本、视觉和音频方面的能力，现在这款模型能够以这三者任意组合的形式进行输入和输出，交互方式更多样、更自然。

GPT-4o的发布无疑在人工智能领域投下了一颗“重磅炸弹”，再结合近期一些消息――“苹果公司被曝正与OpenAI敲定一项协议，今年将后者的部分技术引入iPhone，借此苹果将能提供由ChatGPT支持的聊天机器人作为iOS 18中人工智能功能的一部分”，外界认为，GPT-4o不仅会对国内大模型行业带来冲击，同时也将为行业带来新的机遇。

一位国内手机厂商的AI从业者对记者分析称：“从国内目前的进度来看，追上OpenAI达到的AI语音助手功能估计还需要一年左右的时间，这不是国内和国外（在AI上）的差别，而是OpenAI vs（对抗）其他所有公司，OpenAI现在的优势在于语音情感化、实时视频多模态以及‘恐怖’的推理速度。”

GPT-4o语音助手进化：实时响应，能识别用户情感

虽然GPT-5没有如期到来，但GPT-4o私人语音助手的进化依旧让不少人感叹道：“太酷了。”

具体来看，在GPT-4o的支持下，它可以用各种语调、情绪给你讲睡前故事，并且交互的语音感情丰富，可以变换语音语调、风格，还可以随时打断，甚至“即兴”唱歌。

Quartz报道称，GPT-4o的情感属性使AI聊天机器人比苹果的Siri更加个性化。Siri给人的感觉就像在和一个机器人对话，但OpenAI的演示清楚地表明，GPT-4o具有“人工情感智能”，能够识别用户的情感并与你的情绪相匹配。

尤其在响应速度方面，GPT-4o几乎解决了延迟问题，其可以在短短232毫秒内响应音频输入，平均为320毫秒，这接近于对话中的人类响应的时间。并且，用户在进行对话时还可以随时打断。

在缩短延迟提升体验、情绪感知能力之外，GPT-4o在GPT-4的基础上还进行了多项升级，例如GPT-4o具有3D视觉内容生成能力。演示人员手写“3X+1=4”数学题给GPT-4o看，GPT-4o便能在线语音指导如何一步步解题；而客户端的ChatGPT则能随时解决写代码、读图表等任务。

性能提升的同时，GPT-4o价格还更便宜。OpenAI公司表示，新模型性能更强，接口调用价格却只有此前模型的一半。所有用户都可以免费使用新模型，不过消息数量会受到限制，付费用户消息上限更高。预计新模型各项功能会在未来几周逐步推出。

AI语音助手重回焦点

OpenAI今天更新后，数年前饱受诟病的AI语音助手又重回人们的视线。过去，人跟AI进行语音对话，基本上都经历三步：用户说话后AI进行语音识别，即音频转文本；大模型拿到这段文本，进行回复，产出文本；文本进行语音合成，变成音频。但上述三个阶段会导致较长的延迟以及信息损耗，无法表达情感等。

AI语音助手并不是一个新鲜事物，当前几乎各大手机厂商都在其智能手机中内置了自己的AI语音助手，例如苹果的“Siri”、小米的“小爱同学”、华为的“小艺”、荣耀的“YOYO”、OPPO的“小布”。

其中，为人熟知的当属Siri。公开资料显示，Siri于2011年问世，当时被誉为AI技术的突破。然而多年来，Siri在某些方面的表现仍不够理想。例如，Siri的语音识别能力还有待提高，在某些情况下，Siri可能会无法准确地识别用户的语音，导致用户无法得到他们想要的信息或服务；其次，Siri的理解能力也有限，它很难理解对话的上下文，并只能执行简单的任务。

Siri的联合创始人、前首席执行官达格・基特劳斯（Dag Kittlaus）甚至曾直言，在被苹果收购后，Siri可能没有充分发挥其潜力，但语音助手仍将是数字技术的未来。

相比之下，Google Assistant和OpenAI的ChatGPT具有先进的自然语言处理能力，这使它们能够理解人类语言的细微差别并作出相应的反应。一旦苹果与OpenAI达成协议，苹果不仅可以缩短产品研发周期，还可以利用OpenAI在人工智能领域的积累迅速提升自家产品的智能化水平，带来更加智能、更加互动的Siri。

放眼国内手机厂商，近年来国产手机厂商发布的新手机中，部署在手机“端侧”的AI大模型成为重中之重。其中，OPPO推出安第斯大模型，参数量从70亿到1000亿，可以部署在端侧和云端；vivo蓝心大模型的参数量从10亿到1750亿，可以部署在端侧和云端；小米MiLM大模型参数从13亿到60亿，主要部署在端侧；荣耀“魔法大模型”则有70亿参数，主要部署在端侧。

在AI落地应用方面，当前国内的AI技术主要集中在自动摄像头控制、人脸识别和身份验证、语音识别和转录等方面。其中，日常生活里，AI可以对语音助手、自动化办公、智能推荐系统等场景进行大幅优化，增强体验减少冗余工作量；在娱乐方面，AI可以处理复杂图像视频，如图像增强、分辨率增强、图像修复、色彩校正、消除物体以及智能抠像等等。此外，AI还能够从各种格式（例如，音频、视频、电子邮件附件）的长篇内容提取内容，生成简洁的摘要等等。

值得关注的是，当前主流手机厂商推出的大模型应用其实并没有太大差异。从长远发展来看，AI助手可以深度集成于操作系统，拥有理解与预测用户需求的能力，进而为实现无缝衔接的跨应用服务提供支持。

在回应几年之后荣耀的AI会带来怎样的想象力或者场景时，荣耀CEO赵明曾在今年3月表示：“我们坚信AI可以改变智能手机的未来，今天即使做得最好的苹果实际上操作也非常不方便，未来用AI势能改造的时候，比如说一个电子设备，我需要它的服务，用眼睛一看，就提供相应服务；或者打一个响指，这个服务就会过来。”

当谈及国产手机人工智能助手与GPT-4o之间的差距时，一位从业人士对记者称：“主要（差距）还是算法和云端算力。”前述AI从业者则表示：“我们初步看了一些榜单，阿里通义千问多模态模型已经超越了GPT-4V，当然，它离GPT-4o还有差距。现在的问题是，OpenAI是一家公司，而国内可能得几家（大模型厂商）组装起来（才能）追齐，我们的压力还是很大的，目前OpenAI（处于）断崖式超前。”

每日经济新闻