文 | BFT机器人
ChatGPT引爆AIGC奇点,日新月异,百花齐放。
ChatGPT是美国OpenAI公司于2022年11月30日发布的基于GPT-3.5大模型的聊天机器人程序,采用自然语言技术,能完成撰写邮件、代码、翻译等任务,开启“AI的iPhone时刻”。
2023年1月末,ChatGPT的月活用户突破1亿,成为史上增长最快的消费者应用;
2月7日,谷歌发布对话型AI 系统Bard迎战ChatGPT;
2月8日,微软将ChatGPT接入Bing搜索;
3月15日,OpenAI 发布了GPT-4,支持多模态输入;
3月16日,微软发布了植入GPT-4技术的Copilot, AI助力Office软件生产力大提升。同日,百度发布了大模型文心一言,并启动内测;
3月20日,阿里达摩院上线“文本生成视频大模型”,目前仅支持英文输入;
3月24日,OpenAI发布ChatGPT Plugin,支持第三方插件接入,并同时开源知识库检索插件源代码,“AI的App Store时刻”到来;
3月27日,百度推出“文心千帆” 大模型平台,面向客户提供企业级大语言模型服务;
3月28日,腾讯AI Lab发布自研3D游戏场景自动生成解决方案,使用AIGC技术。
ChatGPT引爆AIGC(生成式AI)奇点,AIGC技术赋能千行百业,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着传媒、电商、娱乐、影视等领域的内容需求。内容生产进入AIGC时代,跨模态成为增长点。
AIGC(AI-Generated Content,AI生 成内容),是指基于Diffusion模型(Diffusion model,扩散模型)、GAN模型 (Generative Adversarial Nets,生成式对抗网络)等人工智能技术,通过已有数据 寻找规律,并通过适当的泛化能力生成相关内容的技术,既可以生成常见的图像、 文本、音频等外显性内容,也可以生成策略、剧情、训练数据等内在逻辑内容。
内容生产已经从专业化的PGC到用户生产的UGC,现在已经进入AIGC时代。AIGC不仅 意味着AI的角色开始从观察、预测拓展为生成、决策,也意味着AIGC作为一种赋能技术,借助其大模型的跨模态综合能力和内容生产力,将广泛服务于各类终端行业。
AIGC尚处于萌芽阶段,有望成为未来关键技术推动力。AIGC从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际工件,可用于多种活动,如创建软件代码、促进药物研发和有针对性的营销等。
根据Gartner发布的《2022年新兴技术成熟度》报告显示,生成式AI仍处于技术萌芽期阶段,离技术成熟还需要花费五到十年 时间。在这一阶段,生成式AI具有较大的发展潜力,有望成为未来关键技术推动力。Gartner认为生成式人工智能为2022年重要战略趋势,是最引人注目和最强大的人工智能技术之一,到2025年,生成式人工智能将占所有生成数据的10%。
技术场景细分多样化,技术原理突破推动规模化应用。AIGC应用技术场景细分领域众多,按照模态区分,可以分为音频生成、文本生成、图像生成、视频生成及图像、 视频、文本间的跨模态生成,多点开花。
目前已经有较为明确应用的有结构化文本写作、辅助性文本写作、作曲及编曲、图像编辑、视频属性编辑等,非结构化文本写作、创意图像及视频生成、文本到图像和视频的跨模态生成预计会在未来1-2年内实现规模化应用。
伴随着有关底层技术原理的不断突破和细化,AIGC将迎来快速发展和广泛应用。使用AIGC不仅可以实现降本增效,更能激发创意,提升内容多样性, 降低制作成本。
AIGC赋能千行百业,未来需求乐观可期。AIGC作为一种赋能型技术,能在很多行业内找到应用场景的结合点。这台“21世纪的珍妮纺纱机”基于其强大的内容生产能力,将重塑几乎所有行业,带领行业进入新时代。
目前在绘画、视频制作、音乐、写作、编程等众多内容生产行业中都有显著的业务需求,在游戏、传媒、电商、娱 乐、教育、金融、医疗、药研、工业等多个行业中都有望塑造更多应用场景。
1.AI+绘画:以OpenAI为代表的企业可以实现基于文字描述绘制出精美图画,渲染质 量和画质细节令人赞叹。AI绘画为用户提供高自由度的表达途径,彰显了用户的个 性化需求,为其提供更强烈的沉浸感,使得绘画艺术更加贴近大众。
2.AI+视频制作:目前已经可以利用AI将绿幕拍摄的真人动作视频转化为动画风格, 省去了复杂的动作捕捉和需要手绘调整的细节,极大提高视频制作效率。未来,视频生成还将能够完成人脸替换、人脸再现(人物表情或面部特征的改变)、人脸合成 (构建全新人物)甚至全身合成,虚拟环境合成等功能,值得期待。
3.AI+音乐:主要有AI作曲和编曲两个分支,AI作曲是以语言模型为中介,对音乐数据进行双向转化,提取节奏、音高、音长等信息,得到纯音乐或主旋律;AI编曲是指利用AI生成不同乐器和弦,完成整体编配。目前已经实现基于开头旋律、音乐类型, 图片、文字描述、情绪类型等生成乐曲,提高了音乐的创作效率,丰富了音乐类型。
4.AI+写作:目前,AIGC已经能较好应对结构化写作,如客服类聊天问答、体育/金融新闻撰写,Narrative Science创始人预测,2030年时90%以上的新闻会由机器人问题。AI代替人进行文本写作可以解放双手,提高效率和正确性。
5.AI+编程:使用ChatGPT4等工具可以用自然语言生成代码、解决Bug,为程序员编 码大大降低了门槛,甚至一定程度上,还可以一键生成自己想要的代码与网页。
6.AI+游戏:AIGC可以在其中扮演人工智能NPC,可以基于对话语义进行无限延展, 并记住该对话,从而使被玩家改变的NPC在再次相遇时维持被改变的特性。长期来看,NPC的灵活自主将使其成为重要社交节点,有效扩充元宇宙内部架构。
(一)AIGC赋能XR领域,驱动内容端加速升级
VR(Virtual Reality,虚拟现实)是指利用VR设备模拟产生一个三维的虚拟空间,提 供视觉、听觉、触觉等感官的模拟,让使用者如同身临其境。简而言之,就是不依赖于使用者自身所处的环境,完全“无中生有”。
AR(Augmented Reality,增强现实) 是VR技术的延伸,能够把计算机生成的虚拟信息(物体、图片、视频、声音、系统 提示信息等)叠加到使用者所在的真实场景中,并与人实现互动,但使用者能区分两者区别。
MR(Mixed Reality,混合现实)是VR向AR技术过渡的产物,将虚拟世界和真实世界合成一个无缝衔接的虚实融合世界,其中的物理实体和数字对象满足真实的三维投影关系。
混合现实技术通过在现实环境中引入虚拟场景信息,在现实世界、虚拟世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实感,具有真实性、实时互动性以及构想性等特点。我们认为MR为元宇宙技术升级必经路线,有望成为各科技巨头积极布局的下一代技术。
AIGC逐渐实现元宇宙的可扩展性潜力,低成本、高效率地满足VR/AR用户海量内容需求。以AR/VR作为入口,元宇宙极大扩展了人类在虚拟世界的生存空间。但元宇宙中需要大量3D场景构建,高保真3D模型单靠人工设计开发效率低、成本高。
AIGC有望成为新的元宇宙内容生成解决方案,利用AI方式生成3D场景将成为未来元宇宙满足海量用户不同需求的解决之道。具体而言,AIGC技术通过提供元宇宙环境生成 的基础设施、提供个性化内容体验和交互方式等,更好地满足用户需求。
AIGC释放开发人员生产力,为构建沉浸式元宇宙空间环境提供核心基础设施技术。元宇宙可以应用在工作、会议、游戏以及生活社交等活动,因此需要在元宇宙空间中创建丰富的活动对象、建筑和活动环境。
但是在过去,为了构建这些数字环境, 需要开发团队半手工地创建每一个部分,用鼠标拖动来放置。而现在AlGC通过实现创建逼真的3D虚拟空间环境、虚拟人物,并且效率和成本可以满足大规模的元宇宙空间环境创建。
例如在游戏场景中,未来游戏的剧情、角色、头像、动作等数字原生基本元素都可以用AIGC进行生成,游戏世界地图也能通过AIGC进一步延展,极大程度释放开发人员生产力,用更少的时间编写代码,提升元宇宙建成速度。
AIGC为元宇宙用户提供个性化内容体验,吸引更多用户进驻元宇宙。AIGC作为生产力工具,可以满足和填充内容匮乏的虚拟世界,同时赋予用户更多的创作自由。例如,AIGC可以帮助用户将手机拍摄的一系列照片生成可以使用的3D渲染图,帮助用户通过语音文字输入来创建可修改的3D环境。
采用这种创造内容的方式,AIGC技术极大地提高元宇宙环境的创作自由,提升个性化体验,未来的元宇宙体验将不再完全由开发人员构建,而是利用AIGC响应用户的输入按需生成。
AlGC在元宇宙用户交互界面发挥作用。元宇宙中存在很多类似NPC的智能体为用户提供交互服务,这些智能体可以由AlGC生成并驱动。当用户借助VR/AR设备进入虚拟空间时,ChatGPT可以作为语言模型集成到各种智能体中,充当元宇宙中的虚拟助手或伙伴,执行“智能”动作和更为复杂的任务。
2022年5月,Meta宣布“CAIRaoke 计划”,“CAIRaok计划”所开发的模型,将允许用户随意地与购买的AI会话助手沟通,用户可以向助手发出简单的语音指令继而创建所需的虚拟现实设置类型。
XR市场规模年均复合增速为32.8%,AIGC应用推动硬件端出货量持续增长。根据 IDC数据,全球VR/AR市场规模将从2021年43.43亿美元增长至2025年的361.12亿美元,CAGR为69.8%。
根据Omdia数据,2023年近眼显示面板出货量有望达到2406万台,同比增长67.3%。随着索尼PSVR 2、苹果MR、Meta Quest 3、HTC新产品等主要产品的推出,以及AIGC未来在内容端的持续赋能,XR产业有望迎来新一轮增长。
(二)Pico 背靠字节跳动,有望持续获得 AI 技术加持
字节跳动持续布局AI技术,Pico作为主力终端产品有望充分受益。2021年Pico被字节跳动收购。作为国内顶尖的互联网企业之一,字节跳动2012年发布今日头条,以人工智能推荐算法起家,AI底蕴深厚。
2016年,字节跳动人工智能实验室(AI Lab)成立,成立时聚集马维英、李航、李磊等AI领域超级大牛,为平台持续提供AI技术支持,研究领域涵盖计算机视觉、自然语言处理、机器学习、语音音频处理、数据知识挖掘、计算机图像学等各个领域。此后在各个AI应用领域,字节AI技术研发与应用持续深化;
2018年,字节跳动“端上智能计算机视觉算法平台”项目获得CCF科技进 步卓越奖;
2019年,字节推出头条搜索使用机器学习根据用户行为对搜索结果进行个性化设置、推出剪映利用人工智能赋能视频剪辑自动化视频编辑任务、收购AI游戏技术研发商深极智能,在搜索、视频、游戏等不同方面深化人工智能算法应用;
2020年,字节推出重磅产品火山引擎,提供多个领域人工智能开发与运维等服务, 并推出切入AI教育硬件领域推出产品大力智能家教灯,通过AI摄像头实现远程作业 辅导;
2021年,字节推出面向开发人员和企业的AI工具和服务BytePlus,并切入AI+ 医疗领域,旗下医疗品牌“小荷健康”研发了一款结肠镜AI辅助诊断软件,并与清华大学合作首次提出了神经网络配音器;
2022年联合南京大学、清华大学人工智能产业研究院提出AI药物设计方法。在与VR相关的渲染技术、动作捕捉、图像内容生成等人工智能技术上,字节跳动具备强大技术积累,Pico作为字节跳动在VR/AR领域探索的主力产品,有望持续得到字节AI技术加持。
Pico利用AI算法赋能虚拟场景生成,为内容提供更强技术支持。2022年,Pico正式推出了官方MRC(Mixed Reality Capture,混合现实录制)。对比Meta Quest需要个人电脑以及绿幕背景,Pico利用深度学习抠图模型,将人物从物理环境中抠出并且叠加到虚拟游戏空间中,配合无线投屏技术实现更低门槛、更高质量的MR视频制作。
此外,在虚拟演出这一场景中,Pico也开发了针对VR场景的AI灯光变化系统、 AI智能音频分析系统等,在旗下VR音乐互动产品BIT-CLUB中运用,呈现超现实的VR电音现场,为用户展现出更为极致的视觉体验。
Pico 4新品全球发布,产品配置迭代升级。2022年9月22日,VR品牌Pico召开全球新品发布会,进军欧美、日韩、东南亚市场,正式发布Pico 4系列新品。9月 27日,其于青岛召开国内新品发布会,公布新品国内售价及开售渠道等相关信息,并且面向国内推出的全新VR生态内容。
Pico 4系列为Pico品牌旗下的全新一代VR一体机,在佩戴舒适度、视听体验,交互感知能力、内容生态等方面带来全面提升,为用户呈现更为沉浸的VR使用体验。本次共发布四种新品,其中,Pico 4的8+128GB版售价2499元、8+256GB版售价2799元;Pico 4 Pro的8+512G版售价3799元,2022年12月开售;Pico体感追踪器售价199元,2022年12月开售;Pico 4定制近视镜片售价为349元起。
从硬件端来看,Pancake光学方案和彩色透视为Pico 4主要亮点,Pico 4 Pro增加智能无级瞳距调节和面部追踪功能。全新Pico 4系列加速硬件端的迭代升级,其中, Pico 4正面采用一体化的曲面镜设计,头显最薄处只有35.8毫米,头显重量仅为295g。
相比于上一代Pico Neo3,其体积减少43%、重量减少100克,单目2160×2160分辨率屏幕,综合PPD达到20.6,相对于Neo3 PPD 19.6略有提升,FOV 105度,支持电动瞳距(IPD)调节;Pico 4手柄采用宽频线性马达,提供更细腻触感;Pico 4 Pro正面采用浅金色高亮曲面镜,在Pico 4配置基础上增加三颗高动态传感器,支持眼球追踪、面部追踪,实现智能无级瞳距调节,并且可为Avatar模拟更丰富的面部表情。
Pico 4全系列相较之前产品增加彩色透视功能、IPD电动调节、手柄支持宽频线性马 达、裸手交互等功能。其中,Pancake折叠光路方案替换此前的菲涅尔方案,当MTF值设定为0.6时,Pico 4的光学清晰度比Pico Neo3提升接近86%;彩色透视功能基于一颗隐藏在黑色曲面镜下1600万像素的RGB摄像头,通过算法进行3D环境建模,再叠加真实彩色画面,实现虚拟世界与真实环境的无缝融合。
从操作系统来看,Pico推出全新的Pico OS 5.0操作系统,重新定义所有的视觉元素和交互体验。UI设计方面,风格轻松自然,全局导航设计使得用户在任何VR应用和场景中都可以轻松呼出个人中心、应用列表、最近使用、设置界面等菜单,消息通知可全局生效。
创新连接方面,全新的Avatar系统开放身材、发型、服装等自定义选项, 并提供丰富的素材库,用户可以按照自己的喜好定制专属的虚拟形象。此外,Pico 4 推出MRC混合现实录制功能,可以通过手机将真人和虚拟的画面和场景自然融合, 创作出MR视频分享到其他平台。
从内容端来看,Pico致力于为用户打造国内应用最丰富、最优质的VR内容平台。运动健身方面,Pico推出集私教课程、节奏音游、瑜伽等运动于一身的健身大作《超燃一刻》、全新节奏音游《闪韵灵境》、VR搏击应用《莱美搏击》、《多合一夏季运 动VR》、《实况钓鱼》等运动休闲类应用,并与超级猩猩、帕梅拉合作打造专属私教课程及塑形计划。
视频方面,2022年Pico上线王晰、郑钧、汪峰等VR演唱会,首次实现8K、3D、多机位实时直播。影视方面,2022年上线科幻动画大作《灵笼》、 人文科教片《古籍寻游记》、自然探险片《跟着德爷闯东非》等。娱乐应用方面,《剑与魔法》、《Espire 1》、《Alvo》与Pico 4同步上线,《戈恩》、《城市叠叠乐》 等会在未来陆续上线。创作方面,Pico轻世界使用户可以轻松创造出属于自己的3D世界及专属个人形象。
(三)Meta 在 AI 领域底蕴深厚,产品配置迭代升级
Meta在AI领域研发底蕴深厚,具有世界级话语权。由于社交平台在推荐算法、广告、 搜索排名、推荐以及用户数据分析等方面的需要,Meta很早便开始布局人工智能技 术。
2013年4月成立人工智能研究机构FAIR,FAIR主要成就包括发布开源机器学习 框架PyTorch、自然语言处理模型PyText等等。同时,Meta在AI领域通过收购实现技术拓展。
2016年Meta收购面部表情分析技术公司FacioMetrics以及聊天机器人开发工具的公司Tugboat Yards;
2017年收购人工智能个人助理应用Ozlo和神经网络初创公司Deeplearning.ai;
2018年收购了开发用于理解和总结文本的自然语言处理技术英国初创公司Bloomsbury AI:
2019年收购开发大脑信号控制计算机技术的CTRL labs、收购计算机视觉初创公司Scape Technologies;
2020年收购利用人工智能和 机器学习帮助企业管理客户互动的公司Kustomer;
2021年收购使用人工智能和机器 学习创建交互式游戏体验的公司Unit 2 Games、收购AI声音识别公司Audio Analytic。Meta在AI领域并购数量较多,持续在AI技术领域扩张,不断汲取优秀的技术人才。
数据来源:IT桔子,广发证券发展研究中心
Meta持续探索AI技术,布局AI+VR/AR全面覆盖前沿功能。2021年末Meta将其AI团队合并入负责开发AR/VR产品的Reality Labs部门,其AI研发团队更加专注于元宇宙相关业务。
Meta持续以AI算法赋能VR/AR设备,技术涵盖平台、芯片、图像生成、 图像渲染、眼动追踪、动作捕捉、视听觉结合、虚拟背景处理、真实世界数据模拟、 虚拟图像生成等方面,全方位助力Meta Quest体验不断提升。
MCC+MAV3D+ Bulider Bot,Meta加速实现虚拟现实“Chatgpt”。Meta的研究团 队结合视频和3D生成模型的优点,先后提出2D图像转换为3D模型的方法MCC与文 本到4D(3D+时间)生成系统MAV3D(Make-A-Video3D)。
MCC为多视图压缩编码技术,作为基于变压器的编码器-解码器模型,可以从单个RGB-D图像重建3D对象。MAV3D基于AIGC理念,是第一个基于文本描述产生3D动态场景的方法,可以为电 玩游戏、视觉效果或AR/VR产生动画3D资产。
利用MCC技术和MAV3D技术,Meta 有望加速在VR设备中实现AIGC,提供个性化内容体验,并在虚拟环境中提供文本/ 语音信息的交互功能。进一步地,Meta正在测试AI驱动的Builder Bot程序,帮助用户通过语音命令,在虚拟环境中让AI一步步创建3D景观,从而个性化地建造VR世界。
Quest Pro产品性能升级显著,较Quest 2性能和价格均提升。2022年10月12日, Meta在Connect大会中正式发布高端设备系列的第一款产品Quest Pro,并于2022年 10月25日以1499.99美金的价格发售,包括Quest Pro头显、Touch Pro控制器、触控 笔、部分挡光器和充电座。Quest Pro较Quest 2性能和价格均提升,定位更高端。采用Pancake光学模组取代菲涅尔透镜,轻薄度、清晰度等均较Quest 2有所提升。
Quest Pro的全新光学堆栈用Pancake光学模组取代了Quest 2中的菲涅尔透镜,将产品体积缩小了40%以上,同时使透镜中心视图的全局视觉清晰度提升了25%、外围区域清晰度提升了50%。
搭载两块使用Mini LED背光技术的2.48英寸高端LCD屏幕,单眼显示分辨率达1820*1920px,每英寸像素数比上代产品Quest2提升了37%, 每度像素数多10%,并提供1.3倍更大色域,画面更为精细。
Mini LED具有局部调光能力,使用专门的背光组建和相应的软件算法,独立控制多达500个单独LED区域,将显示器对比度提升75%。视场角从Quest 2的水平96度垂直96度提升至水平106度垂直96度,采用开放外围视图,令头显模式更自然。
采用手动线性瞳距调节,设置眼动追踪传感器。相比于Quest 2采用固定三挡瞳距调节(58mm、63mm、68mm),Quest Pro采用线性调节机构,通过滑轨和行星齿轮实现精确的双目同步调节瞳距,调节范围为55-75mm。同时配备眼动追踪传感器, 头显可以自动测量用户瞳距,便于用户正确放置透镜。
Quest Pro搭载全新第一代高通骁龙XR2+平台,带来更佳散热表现和显著性能保证, 实现50%的续航提升和30%的散热性能提升。相比XR2,XR2+提供两倍的RAM (12GB)和更好的散热解决方案支持,能够以更高的速度运行而不过热。
骁龙XR2 +平台还引入了全新图像处理管线,能够实现低于10毫秒的时延,可以支持更即时的VST体验。该平台支持并行感知技术,包括头部、手势和手柄追踪、3D重建以及低时延视频透视,为更逼真的虚拟人物赋予细致入微的面部表情,为开启卓越的全彩视频透视MR体验提供支持。
除此之外,硬件端在手柄、承重、续航、面壳、声学系统等方面还有提升。手柄方面,每个手柄都单独内置三个传感器,采用摄像头跟踪,手柄不再受头显摄像头限制,在任何位置都可以实现全方位360度跟踪。
承重方面,Quest Pro产品重722克, 相比503克的Quest 2有所增加。Quest Pro采用设计前端护额、将电池后置、增加承力拖与后枕等方式,对产品负重进行了分化,中移重心,进一步提高了佩戴舒适性。
续航方面,Quest Pro的续航时间只有1-2小时,相比续航时长为2-3小时的Quest 2有所下降。Quest Pro首次使用内置充电底座,保证用户能在非使用时间保持头显充电。
面壳方面,Quest Pro面壳采用PC材料透明注塑工艺,面壳外延四周为格栅式设计,使得整个面壳和中框之间均分布有散热孔,配合两个散热风扇,整体散热效果较Quest 2有较大提升。
声学系统方面,Quest Pro音频模组采用双方形腔体喇叭设计,与Quest 2相比,可以提供较沉的低音,头显噪音比Quest 2减少10dB。
(四)苹果 MR 头显发布在即,产业链迎来成长机遇
苹果公司全方位应用AI技术,并购增强技术能力。苹果公司在手机、家居、AR等多个板块均应用人工智能技术提供智能化用户体验。包括手机端上AI语音助手Siri帮助用户完成语音控制、信息查询和智能推荐等任务、智能家居产品HomeKit应用了人工智能技术实现了家庭设备的互联互通和智能控制、AR方面增强现实技术平台ARKit, 通过机器学习和计算机视觉技术实现了高质量的增强现实体验等。
苹果通过收购初创企业持续扩张AI技术能力,特别在面部识别、表情分析、动作捕捉处理、图像视觉等涉及AI+MR应用领域方面,利用并购持续增强技术能力。
2010年,苹果收购瑞典面部识别技术公司Polar Rose,布局面部识别相关技术。
2013年,苹果收购PrimeSense公司,从布局实时3D运动捕捉相关技术。
2015年,苹果收购专门从事面部动画和动作捕捉的Faceshift。
2016年,苹果收购研发面部表情分析工具的Emotient, 该公司通过人工智能及机器学习技术来分析人类表情;
2017年,苹果收购从事面部识别技术的网络安全和机器学习公司RealFace,该技术有可能用于未来的增强现实功能。
2018年,苹果收购瑞士公司Flashwell,从事AI图像视觉研发。苹果自2015年以来,已收购多家初创企业,持续在AI领域扩张,不断汲取优秀的技术人才。AIGC技术叠加Siri语音助手,有望助力苹果在头显中实现虚拟世界的ChatGPT。
2022年苹果首次展示了GAUDI AI用于沉浸式3D场景生成的神经网络AI系统,可以根据文本提示创建3D场景,实现3D场景的AIGC。
GAUDI模型通过三个专门的解码器实现3D场景的AIGC:相机姿态解码器对相机可能位置进行预测,并确保3D场景输出的位置有效架构的有效位置;场景解码器负责形成3D的画布来展示物体;辐射场解码器负责渲染绘制后续图像。
凭借GAUDI AI系统,苹果正在为渲染3D对象和场景的生成式人工智能系统奠定基础,这一系统可能应用于苹果的XR头显中,实现3D内容生成。进一步地,GAUDI模型有望与Siri结合实现低门槛的3D场景生成功能。
据The Information报道,苹果MR头显对话式系统与Meta BuilderBot类似,帮助用户利用Siri语音助手,通过与Siri语音交互对虚拟动物设计、场景移动方式等描述以实现三 维场景创建,此外系统还可以计算出物理空间中的障碍物,并为虚拟动物附加自然的物理交互。GAUDI与Siri的结合,有望帮助苹果头显中实现虚拟世界的ChatGPT。
苹果MR头显产品发布在即,具备四大核心亮点。预计苹果公司首次推出的MR设备将以专业人士和开发者为主要用户,服务于高端市场。根据Metaverse元宇宙,苹果MR头显具备四大亮点,包括一键切换VR/AR模式,可以使产品更好地与现实世界直接结合,为MR内容交互提供更多的空间;
眼动追踪及手部追踪功能,能够更好地提 升用户体验,突破交互方式;视频会议功能,能在虚拟世界中逼真地渲染用户的面 部和全身,增强体验感;外接生产力工具方面,苹果MR头显能够作为连接Mac的外部显示器,并且用户还能在戴上头显之后,使用触控板或者鼠标、物理按键控制设备。
根据苹果官网,年度全球开发者大会(WWDC)定档于北京时间2023年6月6日至10日,旨在展示iOS、iPadOS、macOS、watchOS和tvOS的前沿创新。
苹果MR头显配置参数领先,有望成为新一代标志性产品。根据VR陀螺援引硅谷媒体The Information关于MR产品的报道:硬件方面,电池外置,通过磁性电源线与头显的头带连接,用户可以自行更换电池以获得更好的续航表现;
机身材质为铝、玻璃和碳纤维,可减小设备的尺寸和重量,出于审美原因考虑,头显的相机模块很大程度上都被隐藏了;头显右侧设有小表盘,可通过表盘实现虚拟世界和现实世界的快速切换;拥有面向消费者和开发者的不同材质头带;采用Micro OLED屏幕,单眼分辨率达4K;每只眼睛都至少被一颗摄像头追踪,使Avatar能更好展现用户真实表情。
眼动追踪功能还可用于实现注视点渲染,即仅对用户注视区域进行全分辨率图像渲染以节省电量;头显内置10余颗摄像头和传感器,用于完成捕捉外部环境、面 部表情、身体动作等,同时完成VST透视,定位等一系列工作;头显也将配备LiDAR 扫描仪,用于对周围环境进行扫描,描绘三维空间中周围物体的表面细节与距离。
MR头显不设3.5mm耳机接口,内置H2芯片,可与第二代AirPods Pro和未来的 AirPods耳机进行超低延迟连接;前设外向屏幕;可定制磁吸式屈光度调节镜片并支持自动瞳距调节;FOV为120°,超过Meta Quest Pro的106°;内置两颗芯片,包括一颗主SOC(包括CPU、GPU和内存),以及一颗专用的图像信号处理器,两者均采用5nm工艺打造;专用的ISP,将外部摄像头捕捉到的扭曲图像转化为稳定的视频图像,并具有低延迟性。
主攻教育、健康、游戏、视听四大应用场景,AppleTV+团队或成内容研发主 力。苹果围绕健康、教育、游戏、视听四大场景对其MR内容有所布局,例如开发有助于冥想和锻炼的AR应用程序,让用户在看书的过程中体验到奇幻的环境与现实世界融为一体的感受,让用户处于沙漠或者太空场景中观看视频,创建底层引擎为MR游戏提供支持。
根据Metaverse元宇宙,苹果的内容团队由一个代号为Z50的团队研发,规模约为几十人,该团队成员多数都是来自视频、游戏等领域,其主要任务为根据自身过去的流媒体服务Apple TV+中的经验,为MR头显打造内容。彭博社记者 Mark Gurman报道,苹果正在将自家常用的FaceTime、笔记等软件移植到头显当中, 另外它也可以充当Mac设备的“第二屏”。
苹果MR头显为光学产业下一代关键成长驱动,产业链相关公司有望持续受益。从苹果MR头显设备结构来看,该设备包含摄像头模组、镜头、检测设备、透镜模组、 PCB&FPC、视觉调焦模组、芯片、扬声器、头盔结构件等多个零部件。苹果MR产 业链厂商将共同助力苹果MR产品的生产组装环节,苹果MR头显硬件参数的持续提 升以及应用场景的持续丰富有望带动整个产业链加速扩展。
(一)AIGC 赋能音频内容,从语音生成到 AI 作曲应用广泛
AIGC通过提取信息生成音频,TTS领域应用较为成熟。TTS即Text-to-speech,主要是基于AI的自然语言处理+语音合成技术把文字转化为自然语音。TTS应用较为成熟, 国内外众多互联网巨头旗下产品均提供智能语音合成服务,例如Google Text-toSpeech、Amazon Polly、IBM Watson Text-to-Speech、喜马拉雅、字节跳动剪映等等,广泛应用于客服、有声读物制作、语音播报、视频配音等领域。
TTS技术的突破点在于不断结合文本信息,通过语音语调、语音情感等提升对文本的表现力,以及提升基于用户的个性化能力,AI模型能力不断提升使得TTS技术取得长足进步。
此外,语音克隆本质上是一种模仿目标声音音色、语调、语音习惯的TTS,契合声音IP 化的潮流,目前也正在配音、虚拟人、地图导航语音等方面得到广泛应用,例如喜马 拉雅运用TTS技术重现单田芳声音版《毛氏三兄弟》;标贝科技旗下恐龙贝克APP采 用AI语音合成技术,通过为孩子复刻父母亲声音;与奥飞娱乐合作将超级飞侠乐迪/ 小爱的声音定制成TTS声音等等,极大程度丰富用户体验。
AIGC简化作曲编曲过程,主流平台应用成趋势。随着计算机技术的发展,在音乐创作领域,AI的应用已经逐渐成熟。AI能以语言模型作为中介,将语音描述的特性信息转化为音乐数据;也可以基于主旋律和用户偏好生成不同类型的和弦以及模拟不同的乐器声音,帮助创作者完成编曲。
2017年,Amper Music帮助美国歌手Taryn Southern完成了历史上第一部由AI作曲的专辑《I AM AI》,作者将主打单曲《Break Free》的一段旋律放入了AI音乐合成器Amper Music中,利用程序自动添加和弦,生 成副歌。
2019Amper Music于年推出首个人工智能作曲平台Amper Score TM,帮助使用者创作定制音乐,帮助视频编辑者选择音乐和编辑音乐的时间。目前,自动编曲功能已在国内主流音乐平台上线,QQ音乐成为Amper music的API合作伙伴,腾讯AI Lab推出AI虚拟偶像“艾灵”,结合用户提供的关键词生成歌词并演唱;
2022年1月网易推出首个人工智能音乐创作平台网易天音;华为HMS Core音频编辑服务与唱鸭音乐社区软件基于华为独创的AI Singer模型,推出“AI创作歌姬”功能,用户只需输入歌词、选择喜欢的音乐风格,就会自动生成动听的歌曲。
(二)智能音箱着重交互与智能控制,AI 推动各品牌产品创新升级
智能音箱是家庭场景交互中心与IoT控制中心,智能化需求明确。智能音箱基于自然语言处理以及物联网技术,关键特性包括语音交互、内容分享及智能家居控制。智能音箱应用场景不断增加,从最初的语音控制的音乐播放器,发展到家庭场景中仅有的人机交互电器之一,并在人工智能语音控制技术加持下进一步与其他智能家居互联,逐步成为智能家居设备控制中心。
在交互中心层面,目前各品牌智能音箱已 经满足基本交互需求,尤其是在讲故事、家庭教育、播放音乐、简单问答等方面具备较强能力,例如百度旗下的小度智能音箱内置较为强大的家教功能,通过智能问答、 智能日程设计、家教资源内容输出等方式参与家庭教育环节。
在控制中心层面,目 前主流智能音箱已经能透过物联网功能对家庭电器进行控制,例如天猫精灵能够控 制家庭情景中空调、灯光等各类电器,完成开关、调档等功能。
AI技术持续加持各品牌智能音箱交互与控制性能,提升用户体验。小度、天猫精灵、 小爱同学等国内主流智能音箱厂商持续在连续对话、眼神/童脸/手势控制、全双工免唤醒、DLNA投屏等方面运用AI黑科技持续拓展交互能力。
语音交互上,智能音箱语音云端操作系统已经较为成熟,例如科大讯飞旗下iFLYOS平台能帮助智能音箱厂商自选唤醒词、发音人、系统画像等进行场景定制的语音交互引擎开发,应用在中兴智能音箱等设备上;2020年小度智能音箱搭载了百度首款专门针对远场语音交互研发的鸿鹄芯片,实现更高水平的语音交互。
控制方式上,以小度智能音箱为例,小度于2018年6月首次发布连续对话技术,实现了人与智能音箱连续对话,改善人机交互中无法多轮对话、需要多次重复唤醒问题;2019年7月小度首发全双工免唤醒能力, 同时实现“一次唤醒,多轮交互”以及人机对话与人人对话互不干扰。
2019年12月小度提出了兼具全双工免唤醒、眼神唤醒、手势控制在内的多模态交互方式。总体上,前沿人工智能技术的突飞猛进,帮助各品牌厂商智能音箱不断实现交互与控制 能力的提升。
(三)AIGC 应用落地在即,打开音频终端设备未来市场空间
智能交互与家庭场景深度匹配,AIGC加持下智能音箱有望实现飞跃。当前的智能音箱的交互更类似于简单的语音助手以及搜索引擎,能力受限,往往智能对于特定指令进行回应。而未来,在生成式AI模型加持下,智能音箱能够给出更加丰富、更加准确的反馈,提升消费者的体验。
同时在控制层面,AIGC能力有望帮助智能音箱更深层次理解人类指令,并进一步实现对家庭内部各类物联网设备的复杂控制,强化家庭设备控制中心的地位。根据IDC数据,2022年包括智能音箱在内的家庭智能设备市场规模为306.3亿美元,预计到2026年市场规模将达到382.9亿美元,CAGR为5.7%。
预计在AIGC加持下,作为家庭智能设备交互中心与控制入口的智能音箱有望不断增强交互与控制能力,在家庭内部家庭教育、电器控制、起居辅助等方面进一步提升用户体验,销量进一步提升。
大语言模型朝着多模态方向发展,多应用场景均开始布局。GPT4.0转向多模态,新增了图像输入,能同时进行文本和视觉处理的多模态大模型已是技术变革方向。与此同时,当前海内外大厂纷纷在更多文字生成、社交娱乐、音视频、办公等领域布局或引入大语言模型的发展,并朝着多模态方向发展。
AIGC驱动安防智能化升级,市场潜力逐渐显现。AIGC作为新型的内容生产基础设施对既有的内容生成模式可产生革命式影响,一方面其已在办公、影视、绘画等内容需求丰富的行业取得显著发展,另一方面原本已和AI结合的安防、制造等行业也正在AIGC大潮下朝着更加智能化的方向发展,市场潜力逐渐显现。
AI已和安防行业紧密结合,安防在ChatGPT时代还有望获得更快速发展。近几年, 传统安防已通过物联网、云计算、AI等技术升级为智慧安防。据IDC数据,视频监控、 人脸识别、智能摄像头等泛安防是中国近年来已部署和计划部署的重点AI领域,也是AI最先商业化的领域之一。随着AIGC时代的来临,智慧安防可进一步升级。
具体而言,ChatGPT可以通过分析和处理大量语音、文本和图像数据,帮助识别并分类 人、车辆、动物等不同对象,帮助安全系统快速识别异常事件,以及实现更精细化的数据分析和挖掘,进一步提升预测准确率等。
同时,ChatGPT的应用还将促进安防与其他相关领域合作,以谷歌和微软等厂商致力于利用神经网络进行机器人控制为例,将视觉数据以及大型语言模型结合起来,也可推动安防机器人的发展。ChatGPT和AIGC技术的应用,可以帮助安防产品实现更高效的数据处理和管理,从而大幅提升安防系统的反应速度和处理能力,有望实现一定程度降本增效,大力推动智慧安防乃至智能物联网行业发展。
海康威视和大华股份是智能物联龙头,泛安防产品的AI产业化进展迅速。海康威视近年来积累在CV、AI等底层技术进行泛安防软硬件产品布局,并提供AI开发平台服务。截至2021年年底,海康的AI开发平台服务企业用户超过8000家,生成模型5000 个,积累落地项目4000个。
此外,继萤石分拆后,子公司海康机器人也申报上市, 公司与AI紧密相关的创新智能物联业务进展迅速。大华股份的AI能力的落地一方面体现在端、边、云产品的产业化之中,将AI与公司产品强融合,另一方面体现在将AI 与公司产品强融合通过ICC和云睿两大平台,融合数字化生态,推进产业AI化。
为完成公司AI基础能力与企业业务的彼此互补,大华也打造了一款低成本、快迭代、低门槛、全协同的一站式人工智能开发平台――DahuaJinn大华巨灵平台,实现组装式算法开发模式,推动感知智能、数据智能、业务智能闭环产业化落地。
2023年3月30日, 大华股份宣布向中国移动发行股票程序落地,非公开发行股票2.93亿股,每股发行价格为17.40元,实际募资资金净额50.89亿元,限售期为36个月。本次定增后,中国移动成为大华第二大股东,占比8.81%,持续推动公司智慧物联领域发展。
文章来源:未来智库;报告出品方:广发证券
更多精彩内容请关注公众号:BFT机器人
版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。