传统的语音识别技术已经无法满足用户的需求。
文 |动点科技
作者|黄尘
排版|李瑞子
本文预计阅读时长8分钟
随着夺权风波尘埃落定,OpenAI逐渐重回正轨。近日,其面向所有用户免费开放ChatGPT Voice(可供语音聊天),OpenAI前总裁Greg Brockman随后表示:“尝试一下,彻底改变ChatGPT体验”。此前OpenAI于9月推出了基于ChatGPT的文本转语音功能,使用神经网络模型从文本生成类似人类的语音。该功能此前仅面向ChatGPT Plus订阅用户提供,现在向所有免费用户推出。
与此同时,尽管Siri作为苹果产品的智能语音助手曾经引领了潮流,让人们看到了通过语音控制设备的可能性,但随着时间的推移,它的影响力逐渐减弱,甚至陷入了落后的现状。然而,随着竞争对手的崛起和技术的不断进步,Siri的不足逐渐显现出来。
随着大模型赋能下更智能、更自然的人机交互体验出现,国产手机品牌也开始关注并应用大模型技术,以提升其产品的用户体验,进一步竞争市场份额。
天下苦 Siri 久矣
Siri作为苹果产品的智能语音助手,在某些方面确实表现得不够理想。首先,Siri的语音识别能力还有待提高。在某些情况下,Siri可能会无法准确地识别用户的语音,导致用户无法得到他们想要的信息或服务。其次,Siri的理解能力也有限。虽然Siri可以回答一些常见的问题,但对于一些复杂的问题或者一些不常用的词汇,Siri可能无法理解。这可能会让用户感到无助和困惑。
另外,Siri的用户体验也有待改善。有时候,Siri的反应速度可能会很慢,或者在用户需要的时候无法提供帮助。这可能会让用户感到不便和不耐烦。尽管Siri可以根据用户的喜好和习惯进行学习,但其在一些方面仍然无法提供高度个性化的服务,无法满足用户对于更高级别的智能助手的需求。
随着OpenAI的ChatGPT语音功能现在可供所有免费用户使用的消息,用户可以放弃Siri作为iPhone上的主要语音助理——特别是在iPhone 15 Pro系列上。该系列手机配置了新的操作按钮,该按钮取代了iPhone首次亮相以来一直位于iPhone上的静音按钮。
通过新的设置菜单,用户可以将按钮转向除静音以外的其他用途——打开相机、手电筒,录制语音备忘录……或者,变成ChatGPT的触发器。鉴于人工智能聊天机器人在许多日常查询中的实用性以及Siri缺乏的能力,添加ChatGPT的语音支持已经是很多海外用户心照不宣的举动。
国产手机品牌齐发力
以GPT为代表的大模型的发展,不仅席卷了AI产业,还为硬件的智能化提供了新思路。一方面,大模型可以提升手机的语音识别能力。传统的语音识别技术已经无法满足用户的需求,而大模型技术的应用则可以大大提高语音识别的准确性和稳定性。这对于用户来说是非常重要的,尤其是对于那些需要频繁使用语音输入的用户来说。
另一方面,大模型还可以提升手机的理解能力。通过应用大模型技术,手机可以更好地理解用户的意图和需求,从而提供更加个性化和高效的服务。这对于用户体验的提升也是非常重要的。
华为终端BG AI与智能全场景业务部总裁贾永利指出,大语言模型具备泛化能力,能够帮助手机智能助手提升理解能力。另外,大模型Plug-in的插件能力,可以在手机内部打通各应用之间的壁垒,借助工具拓展能力。
在华为盘古L0基座大模型的基础上,华为针对终端消费者场景构建了大量的场景数据与精调模型后的L1层对话模型,并将该模型用在了语音助手“小艺”中。全新的小艺在今年夏天的华为开发者大会上正式亮相。
基于大模型,小艺的智慧体验迎来升级,实现了基于自然语言理解的设备控制、本机数字内容搜索、对话识别屏幕内容;帮助用户快速摘要、文案内容辅助、图片二次创作;实现了随口说随时记、贴心的组合服务建议提醒等。随着更长时间的使用,小艺也会通过不断学习,成为熟悉用户个性、偏好、习惯的日常助手。而这些新体验,今后也将进一步扩展至华为的产品生态中。
11月16日,在2023 OPPO开发者大会上,OPPO正式推出安第斯大模型(AndesGPT),并接入最新发布的操作系统ColorOS 14上。OPPO方面介绍称,在AndesGPT加持下,OPPO手机助手“小布”能实现更加自然流畅的对话,以及提供对话式内容创作、日程管理与通话摘要等服务。
OPPO还表示,2022 年发布的潘塔纳尔系统全面商用,此次将在ColorOS 14上与AndesGPT深度协作。这一系统有望提供更多元化的泛在服务,即根据地点、时间、事件、习惯,在通勤、打车、外卖、差旅等高频场景中提供服务。以国内游为例,当识别到用户购买旅游地机票、火车票后,ColorOS会在用户授权情况下,通过主动感知位置,主动智能推送城市游玩榜单卡片,以及推荐相关酒店住宿。
11月1日,2023 vivo开发者大会期间,vivo正式发布自研蓝心大模型Blue LM。该大模型通过大参数AI算力的端侧部署与云端服务,将全面覆盖核心应用场景。其蓝心小V智慧助理功能,将提供超能语义搜索、超能问答、超能写作、超能创图和超感智慧交互五大体验。vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围表示,希望端侧大模型能成为用户的贴身助理。
荣耀 CEO 赵明则很早就强调了大模型端侧部署的趋势和重要性,在6月上海举行的MWC 2023上他指出,手机端侧的个人大模型是未来探索方向。
天风证券也指出,C端AI应用落地阶段场景重要性凸显,聊天机器人、AI伴侣和内容生产工具场景最先落地,这些场景中的AI应用开发速度和商业化进展或超预期。
机遇与挑战并存
DeepMind联合创始人Mustafa Suleyman此前受访时表示,现阶段的生成式AI只是一个过渡性的技术阶段,接下来将进入交互式AI时代,AI将根据用户的不同任务需求,安排其他软件和或联系真人来完成工作。
他认为,第一波AI浪潮主要聚焦于分类。深度学习表明,人类可训练AI,对图像、视频、音频、语言等输入数据分类。目前人类正处于第二波浪潮“生成式AI”中,即“输入数据并生成新数据”。而未来的第三波浪潮将属于“交互式AI”,“对话才是未来的交互界面”,用户不仅仅是点击按钮和键入文字,而是与AI直接对话,届时交互式AI将能自主采取行动。
毋庸置疑,未来的手机语音助手将更加智能化和个性化,通过与用户的对话和交互,提供更加更精准的建议和服务。但是,由于生成式 AI 和交互式AI需要处理大量的对话数据和实时数据,因此需要更高效的数据处理和存储能力来支持这种交互。这对于手机语音助手的性能和技术要求将是一个巨大的挑战。
另外,生成式 AI 和交互式AI“呼唤”更强大的安全性和隐私保护能力。由于二者需要大量收集和处理用户的对话数据,因此需要手机厂商和技术提供商加强数据安全和隐私保护的措施,以确保用户的数据安全和隐私不受侵犯。
总之,随着AI技术的进一步发展,手机语音助手将面临新的变革。为了迎接这些利好,手机厂商需要不断提升技术水平和创新能力,以应对技术巨变带来的相关问题,并满足用户的需求和期望。