图片来源@视觉中国
文|科技新知
过去十年里,技术的进步可谓翻天覆地,从3G飞跃至5G,再从因特网扩展到万物互连。
与此不同,智能音箱的走势显得逆流而上,去年出货量仅2600万台,更有观点认为这预示了一场技术泡沫的破裂。然而,市场转折的迹象似乎已初露头角。
正如ChatGPT这种先进的生成式AI模型所展现的,它为智能音箱赋予了一种深度的“智慧”,大大提升了用户交互和内容的质感,甚至在视觉等领域的多模态能力,让其应用范围得到了广泛拓展。
百度、小米、阿里巴巴等大厂,敏锐地捕捉到这一趋势并投入资源,寄望于为其智能音箱带来创新与活力。他们的最新战略动向,再次确认了对此技术方向的坚定信念。
不难看出,得益于大模型技术的嵌入,智能音箱市场的竞争再度激烈。至少在参与者们看来,智能音箱是有望真正转变为下一代互联网的核心入口,而不只是一个高科技的小玩具。
BAX再度涉足智能音箱竞逐
在智能音箱的新故事中,近期小度原CEO景鲲的辞任,成了一个典型的标注。景鲲在2014年进入百度,主管搜索相关业务,并自2018年起逐渐成为公众关注的焦点。
令人印象深刻的是2018年3月,百度宣布整合三大部门——度秘事业部、硬件生态渠道部及智能家居事业部,组建为智能生活事业群组。这一重要板块原为集团总裁陆奇所持,他离职后则由景鲲正式接班。
值得一提的是,同年百度首次推出了带屏智能音箱“小度在家”,并由李彦宏亲自站台。景鲲也在社交媒体上热情地分享了这一创新产品的发布。在他的带领之下,小度获得了不错的市场响应,“小度之父”的美誉也实至名归。
2019年5月,成绩斐然的景鲲被提升为集团副总裁,并继续领导智能生活事业群组。直到2020年9月,百度宣布其智能生活事业群组独立完成融资,估值高达约200亿元,而景鲲在这新的组织架构中,走马上任了首席执行官。
如今,景鲲的突然辞职引发关注。此前已有消息,他本应在10月17日的百度世界大会上,作为小度科技的首席执行官发表题为“大模型时代,小度重塑智能生活”的演讲。
许多行业观察人士推测,新任领导的履历意味着在AI的大背景下,小度科技将肩负起更为重要的任务。比如,将大模型技术纳入小度的众多业务中助推发展。
事实上,小度早就已经公开与文心一言技术的结合策略,并宣布创新出专门为智能设备场景而设计的AI模型——“小度灵机”。
毫无疑问,大模型技术会深度塑造小度的智能音箱业务,使其与百度形成更为紧密的战略联盟。
同时,国内智能音箱市场的其他两大巨头——阿里和小米,也在积极布局大模型技术,抱着和百度同样的目的。
8月末,小米已启动智能音箱大模型的内测计划,并邀请了部分用户参与。目前,第一轮测试已经完成,主要针对了小米 Sound 和小米 Sound Pro 两大产品线。
据小米AI品类商务总监透露,小米在未来将不断地优化智能音箱的功能,尤其是在特定的应用场景上,他们希望能为用户创造更多价值,并探索更多的付费可能性。
与之对比,阿里巴巴的策略更为连续和明确。
4月11日,阿里云峰会上宣布了天猫精灵与通义千问的合作。到了9月,阿里又推出新AI品牌——“未来精灵”。这实际上是受到大模型浪潮推动,天猫精灵进行的品牌升级。“小灵,小灵”已成为默认的唤醒指令,“天猫精灵”仅作为一个备选唤醒词。
洛图科技(RUNTO)7月24日公布的《中国智能音箱零售市场月度追踪》报告指出,今年上半年中国智能音箱销量达到1148万台,与去年同期相比减少了19%;而销售额也同样下滑20%,至33.7亿元。在市场份额方面,百度、小米和天猫精灵分列前三,分别占据37%、34%和23%的市场,三大品牌共同占据了市场的94%。
不难看出,智能音箱行业的玩家们似乎正走在一条相似的轨迹上。而随着先进技术如AI大模型的加入,预计这个市场的竞争将变得更加激烈。
智能音箱的困境:为何陷入“玩物”标签?
智能音箱市场的涟漪,让人联想到昔日的“百箱大战”。
追根溯源绕不开亚马逊的Echo。2011年,这家国际电商巨头在其lab126实验室默默点燃了火种;三年后的2014年11月Echo正式问世,这场革命性的创新不仅定义了智能音箱,也预示了一个新技术时代的到来。伴随着全球的关注,越来越多的公司开始踏入这片蓝海,注入源源不断的活力。
再过三年,在中国这片科技热土上,微软、苹果、阿里和小米纷纷推出智能音箱,带来前所未有的市场热度。又不到一年,百度也挥师而来,使得中国的智能音箱市场犹如火箭般腾空而起,掀起了第一波真正的消费热潮。
2018年的智能音箱大战达到了白热化。阿里巴巴宣布斥资高达30亿元推动天猫精灵及周边生态的建设。百度和小米也毫不示弱,加大投资力度展开市场份额争夺战。“百箱大战”,硝烟四起。
在这轮浪潮中,中国智能音箱市场呈现出井喷之势。2019年,市场出货量飙升至4589万台进入了巅峰阶段。
进入2020年,中国智能音箱市场呈现出阿里、百度、小米三强鼎立的格局。然而市场的增长势头突然放缓,洛图科技提供的数据揭示了这一趋势。在达到2020年的销售高峰后,智能音箱销量连续两年出现下滑,2021年和2022年的销量分别下跌到3654万台和2631万台,年降幅达到3.5%和28%。
此外,智能音箱在国内市场的整体地位也出现了明显的滑坡。一个显而易见的现象是,这类曾经的科技新宠,在各大电商平台上已经逐渐被视作其他主打产品的赠品,而非主要销售对象。
到底是哪些因素促成了这样的局面?站在事后诸葛的角度,智能音箱面临的挑战其实并不难发现。
首先,从交互体验角度看,智能音箱并不尽如人意。在早期,远场交互技术受到了很大限制:远距离的操作容易导致交互失败,而背景噪音则经常打断沟通。后期虽然技术有所进步,但交互能力依然不足,例如缺乏“免唤醒”和“多轮对话”功能。
再者,智能音箱在个性化交互方面也表现得不够强大。如难以准确识别和响应用户的情绪,或进行有针对性的对话。简而言之,其交互性仍然显得过于“呆板”。
其次,使用场景过于单一。大部分用户使用智能音箱的功能仅限于查询天气、听故事、播放音乐等基础操作,真正的深度应用并不多。
最终,用户对智能音箱的期待被大大降低,很多人仅将其当作一个常规的音响来使用,而不是一个智能家居的入口或一个有潜力连接商务的工具。这无疑阻碍了智能音箱市场的进一步扩展。
业界也一直在争论,智能音箱的价值是不是被过度夸大了,毕竟我们已经可以直接用手机来完成众多的智慧家居服务?
但答案并不简单。未来的智能家居生态并不会依赖于某一个单一的设备如手机或智能音箱。行业专家认为,未来的智能硬件将呈现多样化,不可能一种设备满足所有需求。每种设备都将有其独特的角色和用途。
虽然手机有能力控制很多事物,但由于其形态和使用场景的稳定性,智能音箱仍然有其独特的价值,特别是作为智慧家居的核心入口。
大模型:打破僵局的魔法棒?
事实上,我们已经有幸体验了大模型技术赋能的智能音箱的初步版本。近日OpenAI发布消息,他们为ChatGPT赋予了与用户进行语音和音频互动的能力。
ChatGPT可以扮演五种不同的角色来回应用户的问题,使得它的回应听起来比Alexa和Siri这些流行的语音助手更像真实的对话。许多用户在各大社交媒体平台上分享了他们对ChatGPT语音交互的惊艳和期待。
若在现阶段将高级的大模型整合到智能音箱中,可以极大地优化音箱的交互体验及内容生成的质量。
详细地说,智能音箱的运作包括三个关键步骤:首先是将用户的语音转化为文字指令;接着,理解并处理这些指令;最后,将处理结果转化为语音输出。
这三个步骤分别涉及到自动语音识别(ASR)、自然语言处理(NLP)以及文本到语音(TTS)这三种技术。
在这三个技术中,ASR的技术已经相当成熟,NLP正在经历显著的突破,而TTS虽然早期便开始向成熟迈进,但在情感交互方面仍面临挑战。然而,随着大模型的出现,不仅NLP有巨大的增长潜力,其他技术也预期将实现显着的进步。
我们可以大胆预测,随着大模型的加持,智能音箱未来不仅可能实现更个性化的服务,还能够准确捕捉和响应用户的情感,进一步丰富应用场景。
但采纳新技术也是一个渐进的过程。
行业专家指出,厂商在融合大模型时,需克服诸如算力分布和时延控制等挑战。决策比如是否在本地处理情绪识别,还是在后端执行?同时,大量API接口的调用可能会导致更长的时延,进而影响交互质感。
仅仅接入大模型并不能立即带来显著效果或即刻推出新产品。虽然这一技术能够显著提高交互体验,但也伴随着相应的问题。
其中,与语音交互相关的问题之一是成本,特别是考虑到用户可能需要支付API调用费用。而数据安全性也是一个关键问题,一旦涉及用户数据,厂商需要严格遵守国家法规。
因此,近期的变革将取决于市场参与者——无论是软件还是硬件的创新方向和技术演进。
那么,大模型是否真的能够重塑智能音箱市场呢?可能性是存在的,但并不绝对。尽管技术进步为智能音箱开辟了新途径,要想真正取得成功,还需拥有可行的商业策略。
简而言之,智能音箱的发展前景依然存在许多未知数。但大模型的涌现为其注入了新的活力。我们必须认识到,技术的演进往往不是单调上升,而可能是起伏不定的。智能音箱目前似乎正试图从某个低点中跃迁。