在各家都还在做APP寻找大模型的使用场景时,字节已经开发了与AI大模型结合的硬件产品——Ola friend。虽然不是第一个,但字节的这款硬件产品,有何独特之处?这篇文章,我们看看作者的分析。
上次分享了《深度剖析字节豆包AI》这篇文章后,比较有趣的是事情是,收到了很多大厂圈的朋友的反馈,其中也包括字节内部的同学,一方面文章在帮助他们面试字节AI相关岗位的时候发挥了很大作用,其次是对于AI产品和商业不太熟悉的同学,读完也会有些收获,这些热情反馈给了三白更多的创作热情,今天分享的是字节最近刚推出的另外一个AI产品:豆包AI耳机Ola Friend。
全文累计1.7万字,阅读预计需要20分钟,内容包括七个探讨主题,覆盖产品、行业、用户需求、竞品、商业等多个领域,为提升大家的阅读效率,全篇内容我整理了一个脑图如下:
为什么要写这篇文章?
大模型在应用端的落地,是整个行业都在关注的问题。
过去一年AI在软件端的落地说实话并没有呈现明星应用大爆发的情况,一方面国内只有少数几个产品在大厂流量和大量投放的情况下达到月活千万级别;另一方面有大量的AI应用面临成本比较高且商业化变现困难的难题;逐渐的大家也开始把目光转移到AI硬件,大家普遍的认知都认为,相比购买一个云端的AI软件应用,用户更愿意为一个看得见摸得着的AI硬件产品付费;10月字节的豆包耳机Ola Friend发布之后,国内投资圈开始掀起对于AI硬件领域的关注热潮。
从产品发布后的第一天开始,三白便一直保持着对豆包AI耳机的关注,并且还有幸参加了字节官方组织的“智能硬件x大模型”行业解决方案交流活动,我个人十分认可未来AI在硬件领域的应用,随着目前大模型、芯片、音视频等技术的发展,能提供良好的产品体验的AI硬件已经是一个触手可及的事情,为了让自己能够更加深入的了解这个行业,我花了将近1周的时间整理输出了这篇研究分析。
之所以开始关注AI硬件领域,与自身相关的,一方面是在从事了8年的互联网软件应用领域的工作后,深深的觉得,纯软件应用领域的发展已经有瓶颈了,这个行业已经进入成熟期,潜在的机会也越来越少;相比之下,我更加认同“软硬一体”的产品领域的发展,所以好好研究一下说不定以后能够在这个领域找到下一个更好的创业、投资、或者求职的机会;我一直都认可一个说法,如果你认可一个行业,就应该搞清楚它,并通过创业、投资,以及入职一家公司的方式去追逐这个行业,它能给自己带来红利。
另一方面,现在和我一样想要了解清楚AI硬件行业的人也越来越多了,所以我也想借着自己的文笔和研究,花点时间输出一点东西,帮助一下大家。
文章适合哪些朋友?
概括起来,我将分享如下7个主题:
声明:其中大部分内容输出来自于个人思考、圈内朋友的交流和讨论,以及个人通过广泛收集大量的高质量的参考资料,通过AI效率工具快速整理输出。
一、产品概述 1.1 产品基本信息
字节豆包于 10 月 10 日发布首款 AI 智能体耳机 Ola Friend,Ola Friend接入豆包大模型,与豆包 APP 深度结合,用户戴上耳机后,无需打开手机,便能通过语音唤起豆包进行对话。目前,Ola Friend 已经在各大电商平台开启售卖,售价 1199 元。
Ola Friend是一款OWS开放式耳机,单耳仅重6.6克,设计上简洁而美观,拥有多种配色和充电仓选择。同时还搭载了 5 核音频芯片,支持专业声音解析和智能降噪算法,保证耳机本身的优秀音质。
1.2 产品交互形态
大致绘画一下使用过程中数据交互的逻辑如下:
1.3 产品核心功能和使用场景有哪些?
目前豆包AI耳机实际上就是继承了豆包APP语音相关的应用功能,所以所有能够通过语音在豆包APP上使用的功能,理论上通过AI耳机也能支持。
尽管如此,ola friend官方主要主打作为卖点的应用场景主要包括如下5个:
从目前主打的使用场景上看,其应用领域覆盖了搜索问答、教育学习、生活服务、休闲娱乐、情感陪伴着几个场景虽然目前都主打了一个单一的场景,但是相信未来官方会支持越来越多的使用场景的功能。
1.4 豆包AI耳机未来可能还会有哪些使用场景?
虽然目前豆包AI耳机只是主打了几个使用场景,但是个人认为,未来AI耳机可以结合的应用场景,将会是充满想象空间的,它可以覆盖我们的生活、学习教育、商务办公等多个方面的应用。
AI耳机在生活应用场景
学习教育场景
办公场景
最近个人也有留意到,豆包APP已经开始做语音录制等功能,这个能力和豆包AI耳机的应用可能存在密切的关联,或许AI耳机后续也能支持会议耳机的产品能力,以上这些场景我们可以保持期待一下。
1.5 豆包AI耳机的用户体验反馈如何?
正向反馈:在接触过大部分使用过豆包AI耳机的朋友,普遍他们会表达的正向反馈主要聚焦如下3点:
1)豆包的语音功能具备不错的情感交互的体验,陪伴感比较强;
“如果你使用过 Ola friend 这款产品,就会体验到一种「aha moment」,就是那种强烈的陪伴感,就像身边有人在跟你低语交流。这种陪伴感正是吸引用户的重要特质之一”
2)佩戴轻便无感;“佩戴还很无感,从下午 3 点一直戴到晚上 9 点也没有负担,好几次走在路上没有播放声音的时候,还要手动摸一下才能确定戴着耳机”
3)超长的续航能力;“另外值得一提的还有续航表现,6 个小时中度使用,两只耳机耗电都不到 50%。同时到手体验两天多,耳机盒还有 14%的电量”
负向反馈:而从小红书等平台中可以看到,大部分豆包AI耳机的使用者,普遍反馈容易遭受环境音影响,降噪和音质效果不太好,响应慢,以及和豆包APP的连接故障等问题;
整体而言,个人认为,目前Ola Friend交付的AI耳机还是能带来一些惊喜,但是肯定还存在很多体验层面的问题,此前有些朋友反馈下单之后需要2周以上的时间才能发货,可能也因为目前还有不少问题,官方还需要加快做产品迭代和问题修复。
1.6 供应链情况
圈子内的朋友可能会对豆包的供应链情况也比较感兴趣,以下针对豆包AI耳机不同的元器件的供应商和产品型号做了一下整理,信息参考来自公众号“我爱音频网”的文章,笔者非常专业,真的购买了一个耳机并详细的拆解了其中的每一个元器件,其专业程度让人佩服!
1.7 字节内部组织架构情况
据了解,Ola friend是字节此前收购的耳机硬件企业oladance联合字节flow AI团队共同打造;Oladance是一个整机厂商,负责耳机的整体设计,开模和生产,有自己的生产工厂,其中芯片等硬件设施通过供应链支持。
二、产品定位思考 2.1.字节为何要布局AI硬件?
事实上,字节搞硬件的决心一直都没有停止过,从之前收购PICO,Oladance,锤子手机,至今一直都没有放弃过对硬件领域的尝试,如今重新开启AI硬件的探索,其目的为何,个人思考如下:
写这篇文章的时候,我一直在想,怎么去形容Ola friend的产品定位,它到底想做一个什么产品?因为从豆包目前的功能上看,它可以干很多事情,有很多的应用场景,让人一时想不到其产品定位,但是回看其产品名称Ola Friend,便也逐步明白其产品的理念和定位:
产品价值理念:你的随身陪伴的朋友,主打陪伴和情绪价值官方没有把它称为你的个人助理assitant之类的,所以或许官方也没有打算定位为一个提升效率的工具,“朋友”更多的像是定位为一个陪伴你的工具,所以或许定位为一个陪伴产品,主打为用户提供情绪价值,是这款产品的核心定位;
产品的生态定位:AI生态的延伸
目标用户和市场需求:从目前产品主打的卖点和能力上,个人认为产品主要面向如下用户群体
产品核心功能和差异化价值:从产品目前的特点看,硬件层面其产品核心主打的差异化价值是开放式、无感便携、续航能力;从软件层面则主打实时语音交互式使用、陪伴感音质;相比传统智能耳机而言,弱化对降噪能力、高保真音质等的追求,不做全面能力强大的耳机,耳机聚焦单点能力;
价格定位:目前的定价是1199元,该定价在耳机的整体价格段里面属于中高端价位,也就是说,其价格定位聚焦在中高端型的耳机;虽然目前该定价很多用户反馈太贵了,但是从品牌方提供的产品和服务的成本而言,可能产品本身的利润也不高,除了硬件本省的成本,用户持续的使用AI服务,还有大模型和语音合成技术的成本,这些目前都没有收费,让用户免费使用,只能说成体技术和服务成本就比较高,所以这个定价这么贵也能理解。
2.3.字节未来还会布局哪些AI硬件?
根据目前关注到的消息,预计未来字节可能在如下几个硬件领域会有AI的应用布局:
以上信息仅为个人猜测,并未得到证实仅供参考,参考新来源如下:
“据悉,字节跳动同时还在探索 AI 眼镜方向,可能会投资一家新公司或组建内部团队,并且有一名互联网公司的前大模型核心人物已在与字节合作研发 AI 眼镜。
此前在 2024 年 5 月举行的火山引擎 Force 原动力大会上,字节跳动曾对外展示了 3 款联合外部合作方开发的 AI 硬件产品,其中包括机器狗、学习机以及学习机器人。
字节跳动曾在 2021 年底投资 AI 技术及智能眼镜研发商「李未可」,2024 年 7 月,李未可与博士宣布在全国 50 家博士眼镜门店线下首发李未可的 Meta Lens AI 眼镜。”
三、所在行业分析:AI硬件、智能耳机 3.1 AI硬件行业赛道布局和核心玩家
根据个人了解,目前国内外在AI硬件的上布局,主要聚焦在AI手机、穿戴类设备、教育硬件、办公硬件、智能家居和车载设备领域;其中穿戴类设备自然是受关注度最大的领域,而AI手机、AI耳机自然属于AI硬件行业领域目前最受关注的两大领域,各个领域目前的子赛道和国内外主要玩家情况如下:
1)AI手机:AI手机是目前广大消费者比较期待的AI硬件领域,继苹果不断地释放AI信号之后,我们暂时没有看到有实质性的苹果AI产品出来,反而是国内的手机最近观看了OPPO X8自带的手机AI功能后感觉开始看到一些AI手机的应用雏形,X8在一键识屏以及AI消除、去拖影、去反光等图像AI方面的表现让人焕然一新,感觉AI手机终于开始到来的感觉;不过目前大家都还是聚焦在图像和摄影领域,我们还是更期待手机AI助手和APP Agent能带来更多创新;
2)穿戴类AI硬件:赛道包括主要以AI耳机、AI眼镜、AI配饰、AI智能手表等领域,具体如下
3)AI PC:苹果和联想等电脑厂商一直都聚焦AI电脑领域有比较多的发声和畅想,我们也相信这个领域未来会是AI的重点应用方向,不过目前确实还没有看到深度结合AI的电脑终端产品出现;
4)AI教育硬件:教育硬件领域,一方面很多传统的教育硬件比如猿辅导的学练机,科大讯飞的学习机,开始结合大模型推出部分AI功能;另一方面,AI玩具现在也是很多创业公司投入的应用领域,包括机器狗,甚至连AI盆栽、AI玩偶都有,产品主打益智和陪伴价值;
5)AI办公硬件:除了教育,办公也同样是硬件集中地,围绕办公领域的AI硬件目前比较少,暂未看到太多知名度较高的产品出来;
6)AI智能家居:**这块目前主要还是以AI音箱为主,主要玩家还是传统智能音箱的那些玩家,包括天猫精灵,以及亚马逊Echo;
7)AI车载设备:最后一个领域的AI车载设备,目前国内像蔚来、理想汽车等都有推出相应的AI车载结合硬件,同样海外像奔驰、大众,也有相关的应用案例;
3.2 AI硬件行业动态情况
1)AI Pin和Rabbit R1
AI硬件最早爆火的产品,是2023年底美国Humane公司在世界移动通信大会上发布的AI Pin,用户将其别在衣服上,将画面投影在手掌上,用语音进行控制。
AI Pin定价699美元,发布一个月内,预定量就超过了450万台。然而, AI Pin的实际效果却不尽如人意,存在反应慢、交互体验差、续航差等诸多问题,很快跌落神坛,产品退货量甚至超过发货量。
与AI Pin类似的还有曾在百度智能硬件负责人吕聘创立公司Rabbit推出的R1,用户只需要通过和巴掌大小的R1进行语音交流,即可调用手机上所有APP。产品定价199美元,发布一周,预售量达4万台,几个月内销售量破10万台。然而,R1很快也受到套壳安卓、续航差、基础功能缺失、幻觉严重等质疑。根据今年10月吕聘的采访可以推断,Rabbit R1正常的双日活仅有5206,相较于销量并不理想。
AI Pin和Rabbit R1均采用了全新的硬件形态,也可以被称为是AI Native的硬件产品。全新的形态虽然在初期极大吸引了消费者的兴趣,但一旦出现Over Promise和Under Deliver的问题,很快就会被消费者抛弃。
2)Ray-Ban Meta智能眼镜
在这一点上,Meta则选择了不同的解法。
2023年9月,Meta与 Ray-Ban联手推出智能眼镜Ray-Ban Meta,用户可以通过眼镜拍摄照片与视频、接听电话以及播放音乐,并可以通过语音和简单的手势来控制设备。
Ray-Ban Meta起售价为299美元,相较于Ray-Ban的传统眼镜产品并不昂贵。
仅2023年第四季度,Ray-Ban Meta出货量就超过30万副,直到目前累计出货量已超百万。而今年9月份Meta发布的与视觉AI模型相结合的AR眼镜Meta Orion则再度引爆舆论,以至于很多人纷纷认为眼镜将是AI硬件的最佳形态。
3)AI车载设备
高通推出支持生成式 AI 的数字座舱
展会期间,高通通过骁龙数字底盘概念车,展示了骁龙座舱平台的传统 AI 和生成式 AI 能力,涵盖数字座舱、车联网技术、网联服务、先进驾驶辅助与自动驾驶系统等多个方面。
对于复杂的大模型而言,单一在云端运行的 AI 存在高成本、高能耗和隐私安全等问题。
高通通过兼具高性能和低功耗的平台,将终端侧生成式 AI 能力带进座舱,为座舱提供强大、高效、私密、更安全和更个性化的车载交互体验。
自驾出游前不再需要做复杂的攻略,数字助手能够根据我们的出行偏好规划一趟完美的行程;碰到如何换轮胎、安装婴儿安全座椅这些问题,无需翻出上百页的用户手册查找答案,AI 助手能通过对话指导你完成;它还能告诉你仪表盘上突然出现的警示灯代表什么,帮你预约最近的服务中心检测维修。
值得一提的是,高通还为两轮车、电动踏板车等新型车辆细分市场推出了骁龙数字底盘,提升车辆安全性、连接、信息娱乐、辅助系统(ARAS)和个性化云连接等方面的体验。
梅赛德斯奔驰
与 Open AI 合作开发车载语音助手宝马与亚马逊合作推出 Alexa 大型语言模型,而梅赛德斯奔驰正在与 OpenAI 合作车载语音助手——MBUX AI。
作为 MB.OS 的一部分,MBUX 引入的语音助手能够提供基于上下文的建议,并与用户进行对话;它能够基于情境给出建议,主动提问,更清楚地了解用户所询问的内容。
它还可以根据驾驶员的心理状态来调整其回答问题时的语气,比如,如果驾驶员的心情沮丧,那么它的提示和反应将更短、更直接;而如果驾驶员心情好,虚拟助手的声音会更愉快,更健谈。
自查功能,可以对语音助手的回答进行合理性检查。例如,当它推荐的餐馆或商店关闭时,语言助手将通过云数据或者客户的陈述来进行复查。
大众汽车
与 Cerence 合作开发车载语音助手在 AI 的加持下,汽车已经成为对话伙伴。
大众汽车在 CES 2024 期间表示,计划在二季度推出首款大模型汽车,整合了 ChatGPT 的语音助手,将在汽车行驶过程中识别并响应驾驶员的一系列需求。
其语音助手「Hello Ida」将整合 ChatGPT 的大模型能力,在汽车行驶过程中识别并响应驾驶员的一系列需求。
新的由大模型加持的车载语音助手将登陆 ID 4 和 ID 7 两款新能源汽车。方案由 Cerence 协助完成,相比之前的语音交互体验,大模型加持的语音助手应用范围更广、更自然。
4)AI智能家居
5)AI眼镜
1)全球市场规模情况:根据沙利文白皮书报告分享,2023年全球耳机零售量5.1亿副,其中开放式耳机3000万副,开放式耳机占比6%;预计2028年全球耳机规模7.6亿副,开放式耳机5400万副;
2)国内市场规模情况:根据智研瞻公开分享数据,2023年中国智能耳机的市场规模为144亿,年复合增长率在15%左右;
3)开放式耳机市场规模:作为智能耳机的一个重要分支,开放式耳机近年来也表现出强劲的增长势头,特别是在华南和华中地区,开放式耳机的出货量在2023年达到了652万台,同比增长130.2%;目前开放式耳机在智能耳机中的渗透占比大概是7%左右,其中70%的开放式耳机是骨传感形式的耳机;
3.4 智能耳机类型划分
智能耳机行业可根据不同的分类标准进行划分,涵盖连接方式、使用方式、消费场景、价格段:
1)按照连接方式连接方式上,包有线耳机和无线耳机,其中无线智能耳机成为市场主流,无线耳机中TWS蓝牙耳机独占66%市场份额,展现真无线立体声设计和多样化智能功能,颈戴式、头戴式和项圈耳机分别占据约15.2%、8.6%和7.6%的市场。
2)按照佩戴方式包括入耳式、半入耳式、挂耳式,入耳式耳机因紧贴耳道带来震撼音质,半入耳式设计舒适适合长时间佩戴,而挂耳式则平衡了舒适与牢固,挂耳式也就是OWS(开放式耳机),2021年,“Oladance”创始人李浩乾(前BOSE高管)在TWS行业峰会上首次提出“OWS”概念,即“Open Wearable Stereo(开放式无线音响)”,至此,开放式耳机行业进入发展期。具体来说,开放式耳机采用不入耳的佩戴设计,是让用户听见耳机内声音的同时能够感知到周围环境的无线蓝牙耳机。开放式耳机主要由骨传导和气传导两种技术组成,根据沙利文白皮书相关报告,开放式耳机中,目前有70%的耳机采用的是骨传导形式,30%采用气传导方式;
3)按照使用场景包括消费级、商用级、工业级使用场景,其中消费级产品包括娱乐消费耳机(听音乐、看电影等)、商务耳机(开会议、通电话)、运动耳机等;
4)按照价格段划分
上游环节:
原材料供应商包括芯片(如主控蓝牙芯片和存储芯片)、电子元器件(包括传感器和MEMS麦克风等)、电池以及外壳、耳塞等零部件。这些组件是智能耳机实现无线连接、数据处理和各种功能(如噪音消除、语音助手集成)的基础。
上游耳机主控蓝牙芯片厂商包括BES恒玄、Bluetrum中科蓝讯、JL杰理等; MEMS麦克风厂商包括敏芯微电子、意芯微电子等;耳机电池厂商包括VDL紫建电子、HJ弘捷等;其他传感器厂商包括SHOUDING首鼎、PinTeng品腾等;电源管理芯片厂商包括Injoinic英集芯、金宇宙等;无线充电接收芯片厂商包括Prisemi芯导科技、COPO酷珀微等;充电盒电池厂商包括众旺德、EVE亿纬锂能等;
中游环节:
则涉及整机制造和封装,代加工厂商包括天键股份、奥尼电子等厂商;
下游环节:
则主要由品牌厂商和销售渠道构成,直接面向终端消费者。品牌厂商如华为、小米、OV、苹果、Beats、sony、bose、JBL、漫步者、海能达等,新兴品牌商包括Oladance、Shokz韶音、Cleer等;在无线耳机市场上,苹果、华为和小米三大品牌占据了前三名的位置,合计市场份额达到32.8%。华为耳机凭借出色的用户口碑与媒体评价,在2021年中国十大耳机品牌评选中荣登榜单。国产品牌的竞争力也在不断增长,多个中高端国产耳机品牌如QDC、达音科、TANCHJIM、HIFIMAN等在发烧友中获得认可。
3.6.AI耳机和传统智能耳机的差别是什么?
根据沙利文白皮书发表报告,消费者在决策耳机的购买因素的时候,会优先考虑如下几个因素:
4.2 消费者对开放式AI耳机的进阶诉求
综合以上用户对于AI耳机的需求的衡量因素,整体上看,目前豆包AI耳机在语音互动、舒适度、续航能力等方面基本可以满足用户需求,但是在音质,降噪能力等方面还不足,整体定价也高于消费者预期;
4.4 AI耳机满足用户需求存在的挑战有哪些?
1)硬件性能和算力要求:包括芯片的计算能力、拾音器硬件的性能等,AI耳机需要支持大模型运算,以及实时的处理速度,且需要准确的语音识别能力,这些都是需要关键攻克的技术难题;
2)用户对音质要求的挑战:音质是用户购买耳机的重要决策因素之一,目前开放式AI耳机在音质上的弱项会是消费者比较在意的一个点,而提升音质很大程度上取决于声学腔体的设计、芯片性能、传输链路、编码技术等因素的影响,极大的考验技术和成本,该部分具体可见4.5部分;
3)复杂环境的语音识别准确性
4)成本挑战:面对高昂的模型、语音识别、语音合成等技术成本,AI耳机如何保持商业模式的成功;
5)面对多样的能力和多种硬件组合:在体积有限的耳机中集成多个传感器并保持轻量化,是技术设计上的挑战。
4.5 AI耳机如何提高音质表现?
前面也提到了,音质是消费者对耳机非常重视的因素,目前豆包AI耳机在音质和AI互动能力上,优先保障了AI互动的能力,对于音质的追求必然也会有些牺牲,所以我们可以大概了解一下如果要获得更好的音质表现,需要依赖哪些技术能力;
科大讯飞:
2024年5月 15 日,科大讯飞旗下品牌未来智能发布了讯飞会议耳机Pro2和iFLYBUDS2两款新耳机,讯飞会议耳机 Pro2支持 VIAIMAI进化大模型,可一键生成会议摘要总结、待办事项,支持 AI会议助理有问必答、32 国语言同传翻译,支持闪录音功能,支持免费录音转文字等AI功能,iFLYBUDS2 具备会议摘要总结、多场景录音撰写多国语音同声传译、快速生成会议摘要和待办事项等 AI功能。
Cleer:
2024 年4 月 22 日,智能声学品牌 Cleer 发布了“全球首款开放式 AI耳机”CleerARC3 音弧,该耳机搭载了全新一代 Greenwaves Gap9 AI芯片,内置了 Gomore 研发的AI运动算法,可帮助用户实时监控运动生理数据,如消耗卡路里、训练负荷及恢复时间、进阶跑步指标等精准运动数据;在智能交互方面,CleerARC3音弧还集成了出门问问的语音控制技术,升级了 AI语音控制,用户无需提示词唤醒语音助手,使用“下一首”“接听电话”等快捷口令即可进行相应操作;CleerARC3音弧还在开放式耳机中实现了 AI降噪效果,通过引进全新一代 AI芯片 GAP9 及 AI算法,首次在开放式耳机中实现了 AI降噪效果。
三星:
2024 年 7 月 10 日,三星发布两款耳机新品——Galaxy Buds3 Pro 与 Galaxy Buds3。其中 Samsung Galaxy Buds 3 Pro 耳机主打 AI,具备自适应降噪、环境分析(可以视周围环境的种类对降噪强度进行调整,进行”选择性的降噪”,例如路上救护车的声音就不会被”降噪”掉)等功能,并能够配合 Galaxy 手机完成实时翻译功能;
阿里通义:
首款智能耳机 AIxFU(爱富)在 2024 年云栖大会上首次对外发声。这款耳机融入了阿里通义的 AI 技术,定位也是耳畔智能助手,具体的功能细节目前暂时尚未公开;
百度小度:
另有消息透露,最早在 2020 年 9 月推出智能耳机的小度,今年也在加快AI耳机新品节奏。
漫步者:
在 2023 年与阿里集团下属人工智能公司签订合作开发智能耳机的协议书,相关产品已在研发中。
魅族:
联合怒瞄在今年年初推出的首款 AI Device 亮相,也是 AI 耳机形态,计划将于今年年底美国「黑五:」购物节期间正式发布。
整体而言,目前AI耳机竞品中,除了Cleer已经也支持AI互动体验且更多聚焦运动健康领域,科大讯飞垂直聚焦会议场景,目前像豆包AI耳机一样具备完整的AI语音互动能力,且支持多种应用场景的AI耳机,暂时还没有看到,其他产品基本都还在研发过程中;
5.2 面对激烈的市场竞争,字节的竞争力是什么?
AI耳机的技术实现基本包括以下几部分:LLM(大模型)+ASR(自动语音识别)+TTS(语音合成)+RTC(实时通信)+Agent;其中ASR作为语音识别输入技术,LLM+Agent作为生成回答的处理中枢,TTS和RTC作为语音生成输出技术,闭环整个产品的能力,字节在以上几部分上的竞争优势如下:
我们先盘点一个AI耳机的成本结构,个人总结下来主要包括如下几部分:
由此可见,其产品的成本说实话可能不低,所以AI耳机真的有利润空间吗?
引用rabbit R1 的创始人吕聘的公开消息,其AI硬件产品 Rabbit R1的售价199美元,硬件的成本大概占比60%,只考虑硬件的利润率是40%左右,然而用户的使用过程中还有云端的服务消耗的成本,硬件的利润预计能够满足用户1~1.5年的使用,也就是说,产品的利润取决于产品的使用寿命以及用户的使用频率和消耗。
所以,可见单纯硬件本身,说实话可能没有太多的利润空间,那么AI耳机的商业模式到底是什么样的?
6.2 豆包AI耳机的商业模式什么?
参考Rabbit R1创始人吕聘的说法,未来AI 耳机的商业模式可能和手机厂商的模式相同,可能也是基于应用商店APPStore的模式实现商业化;未来AI耳机的使用可以支持多种应用场景,相应的应用由开发者开发并发布到应用商店,应用本身可以通过提供增值服务等方式让用户付费,而应用商店品牌方采用收佣分成的方式获利。
举个比较典型的例子,比如音乐、听书和FM类的应用,天然就是AI耳机最合适的搭配应用,用户可以购买耳机应用商店内的服务,获得更多的增值能力,而品牌方从中抽取一定的分成;
6.3 AI耳机的应用,和手机APP的应用有何区别?
看到前面第二点的时候,可能很容易会设想的问题是目前手机端已经有APP,且连接耳机就可以支持接听音乐等,为何还需要一个单独的AI耳机的应用?
仔细理解一下就可以知道,目前手机端的APP更多的只是支持声音的输出,尚不能通过耳机对APP发起指令,也就无法实现AI互动,应用本身必须要和耳机建立连接和“通讯”才可实现这样的AI互动效果,所以手机APP也需要结合AI耳机做二次开发,形成适配耳机互动的应用,这是两者之间的差别。
当然,以上这些也都是大家的揣测,并没有看到现实成功的案例,这些可以交给现在的AI硬件厂商们给我们答案;
七、产品局限和未来发展思考 7.1.豆包AI耳机目前的产品局限性
1.从产品使用的角度看,目前不能脱离手机使用:个人认为,最蛋疼的就是必须要蓝牙连接手机,这就意味着,耳机只是手机在空间上的延伸,耳机不能脱离手机使用,对于用户而言,也必须时刻保留在手机可以连接的范围内;
2.从硬件的角度看,语音识别在复杂环境中的准确性不足:例如在嘈杂的环境中,用户体验可能受到影响;
3.从数据的运行效率上,目前耳机的AI问答效果需要经历“耳机→APP→豆包应用→云端大模型”,链路比较长,无法实现“耳机→云端大模型”直连,这将影响其多任务处理和即时信息反馈方面的表现 ;
4.从商业模式上,AI耳机现在还是个新兴领域,商业模式是否能成功还没有得到印证,AI耳机未来将持续面临商业模式的挑战;
7.2.豆包AI耳机未来发展的思考
综合前面关于产品局限性的思考,个人认为,未来AI耳机的发展可能包括如下几个方面:
1)从产品使用的角度,未来AI耳机朝着可以脱离手机独立运行的方向使用,能够支持自身联网,直接连接云端大模型,这样耳机便可以不需要通过蓝牙连接耳机使用,脱离手机连接距离范围也能运行,手机端的价值更多的解决耳机应用安装和管理的能力,以及语音数据上云的作用;但是这必然意味着对芯片等硬件的要求会更高;
2)从硬件的角度,未来AI耳机可以逐步补充其在智能识别、智能降噪、音质等方面的短板,基础性能上追赶传统智能耳机的体验,让AI成为耳机标配下的增值部分,而不是让用户在传统智能耳机和AI之间做选择;
3)从数据的运行效率上,个人觉得潜在的发展路径包括如下几个阶段:
4)从商业模式上,AI耳机除了持续迭代产品提升产品价值,也会持续的寻找降低硬件和软件成本的路径,同时寻找商业变现的机会,把商业模式跑通;
7.3.字节将如何赋能AI硬件行业
我相信字节做AI耳机和AI硬件,不会只是想单纯的做硬件本身,按照大厂的生态发展思路,他们通常都会把解决方案开放出来,赋能整个行业,10月在参加火山引擎举办的“智能硬件x大模型”的线下会议的时候已经看到了大概的思路;
1)智能硬件连接大模型的解决方案:LLM+ASR+TTS+RTC+Agent
官方给出的关于AI硬件的技术解决方案的组合是串联大模型LLM,语音自动识别技术ASR、语音合成技术TTS、实时通讯技术RTC、Agent开发技术,如此便可以实现硬件AI化的能力;
火山引擎提供大模型和语音技术的一体化SDK,接入SDK即可直接使用自己的语音和大模型技术,至于Agent的构建,这主要可以通过扣子实现,扣子后续将在API插件方面增加硬件插件能力,支持扣子和硬件能力的连接,解决Agent调用硬件能力的问题;
2)字节的语音技术能力情况
八、结尾
作者:三白有话说,公众号:三白有话说
本文由 @三白有话说 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议