3D+AIGC与智能手机的融合,无疑是移动人像赛道又一颠覆性重要突破。vivo再次领先背后,有着哪些极限挑战?
作者|Cindy
编辑|刘珊珊
火热7月下旬,“AI写真数字人”一夜间刷屏社交网络,渐有成为“中国AIGC首个刷屏案例”之势。
这是AIGC(生成式人工智能)风口“梦想照进现实”冰山一角。在2023年,历经70多年技术沉淀的AIGC,和ChatGPT、大模型、3D等技术一起,成为人工智能产业落地重要形式,为商业世界带来全新代际变革。
一个引人注目的问题随之浮现:作为高端制造行业重要分支,智能手机将在未来很长一段时间,仍是智能汽车、智能家居等科技最好载体。智能手机应如何与AIGC、3D、大模型这样的全新技术融合贯通,以反哺智能手机的迭代创新?
“AI技术突破让移动影像面临新课题,也让我们重新思考人与影像技术的关系。”7月30日,青海西宁。在这场交换彼此影像故事的盛典发布会上,vivo给出了自己的探索答案:AIGC、3D将成为创新赋能未来人像技术的生产工具。
影像研发,道阻且艰。影像长赛道上,vivo再次抢先布局,发布全新制程6nm自研影像芯片V3、推出AIGC四季人像模式、与蔡司联合探索新结构的长焦镜头、并对T*镀膜技术进行升级。
其中,外界最为关注焦点,正是vivo明确进行3D人像技术研发,将在人像3D重建感知和AIGC两个方向进行探索。而为了更好的进行人像3D重建感知研究,vivo还在重庆建立了动捕实验室。
这是vivo深耕“人性化的专业影像”之路又一重要升级。“得影像者得天下”已成行业共识的当下,移动影像——特别是人像竞争更是焦点中的焦点,“VO荣米”、华为甚至苹果都在不约而同探索移动人像边界。
3D+AIGC与智能手机的融合,无疑是移动人像赛道又一颠覆性重要突破。那么,vivo布局3D人像技术前沿,探索AIGC全新技术背后,有着哪些极限挑战?又会给“极致内卷”的影像赛道,带来怎样的体验创新?
自2000年夏普推出世界上第一款能拍照的手机开始,23年间,手机影像能力在一轮轮迭代演进中极致内卷——尽管手机摄影足以媲美专业相机成像效果,但厂商对手机影像追求从未停止。
原因很简单,人人皆可随时随地拍摄、分享、创作时代,谁掌握影像未来,谁就左右着用户购买决策,更容易获得市场和消费者的青睐。
其中,人像是最高频最重要应用之一。“人像和夜景、运动、变焦,是我们定的四个拍照赛道。”vivo影像副总裁于猛如此表示,另外还有视频、未来赛道,是和拍照并行的一级赛道。
拍人像,用户最直观感受是成像效果是否足够自然和足够美,但美没有定义。对每家手机厂商而言,最难的是如何更懂用户,更懂影像,去让大多数用户都拍出满意的照片。
如何更懂用户和影像上,每家厂商理解各不同。
vivo对人像摄影理解是,需要像专业摄影那样,去精确人像和人体中语义重点,大到年龄、性别人物速写,细到毛发、五官轮廓自然和立体感,并且要通过技术在影调、色彩、亮度、虚化等层面上,让人与场景和谐、自然融合。
在此理解基础上,vivo探索出行之有效的“影像”方法论,即通过“三个比肩”打造vivo影像技术矩阵——比肩专业影像设备、比肩专业摄影团队、比肩专业后期能力,满足每位创作者、每个普通人的不同诉求。
这对vivo的考验是,需要从硬件、软件两大方面进行技术上的不断革新。为此,vivo打造出光学感知系统、臻彩还原引擎、超清画质引擎、算力加速引擎四大影像技术模块,又与蔡司深度、全面合作打造行业顶级的专业人像镜头,从多个维度去优化人像拍摄效果。
这些探索,让vivo在人像赛道上相比行业其他玩家走得更远。从2015年vivo X5 Pro推出知性美颜算法开始,到2022年vivo X80 Pro首次搭载蔡司人像微云台镜头,vivo X90 Pro+搭载行业首发蔡司双焦段人像镜头,以及vivo X90s的“质感模式”。8年间,vivo一直无愧人像、夜景赛道开辟者与领跑者,给了一个用户几乎无法拒绝vivo的理由。
从2023年第二季度中国(大陆)智能手机厂商市场份额中看到,vivo以17.7%的市场份额占据中国智能手机市场第一。而从2021年夺冠至今,这已经是vivo第三年取得这样令人瞩目的市场成功。
但是,用户对移动人像的需求提升,永不会停止。这让所有厂商影像创新都面临“技术矛盾点”——轻量化趋势下,手机内部空间方寸,很难以类似专业相机堆硬件方式持续进化。应如何去打造更具差异化、引领性的人像体验?
人工智能,是谁都不会错过的“第四次产业革命”机遇,手机厂商也如此。“我对于(影像)这个赛道越来越有信心,也相信这个赛道会越来越长。”在接受媒体专访时,于猛就表示,AI正改变千行百业,也会给智能手机创新带来无限可能。
事实上,AI能力早已和手机相融合。最典型的,就是成为行业标配的“AI多摄”,通过AI算法以及处理器算力,助力光感知系统软硬件一体化协同升级,带来手机人像拍摄上的指数级效果提升。
AI方面,vivo更是深耕已久。几乎每一代vivo手机,影像、视频、图像、语音等日常处理背后,都有数十个复杂AI算法一起工作。
比如美颜技术,是vivo抛弃传统遮瑕式美颜,通过筛选、达成的百万量级素材训练集,利用AI确保可以在任何人像场景下,都能达成最佳美颜效果;“夜景拍摄”场景,vivo也是通过AI算法、实时黑光夜视等去赢得行业领先。
而在西宁举办的vivo影像盛典特别活动,更是AIGC、3D、大模型等全新技术浪潮之下,vivo基于历史技术积累和未来研发方向,对AI如何与智能手机影像更好融合,以及影像光学、算力和算法未来发展方向的再次跃迁。
例如,不同于V2自研芯片,全新自研芯片V3将设计重心放到手机影像思考上,算法提升让手机影像在画质、宽容度等方面有了进一步的提升。不但场景覆盖会更全面,并且在V3加持下,安卓平台也将首次实现4K拍后编辑功能,支持4K电影人像视频功能。
同时,vivo围绕人像和夜景这两个核心场景,集中构建了超感人像系统和苍穹夜景系统。迭代算法矩阵目的,依然是通过AI,去确保人像、夜景等核心场景实现最极致的拍摄体验和效果。
如果说上述探索,是vivo为满足当前消费者多元影像需求,保持移动影像人像赛道持续领先优势的重要之旅。那么布局人像3D重建感知技术平台,积极拥抱AIGC算法,则是AI浪潮下,vivo作为人像赛道的开辟者和领跑者,面向未来,引领行业进化的创新探索。
这是第一次有主流大厂,将3D、AIGC明确视为智能手机移动人像布局方向。
3D技术上,vivo其实不是第一次有所涉及。2018年,vivo发布 TOF 3D超感应技术,实现手机对高精度3D信息的采集和运算。
但毋庸置疑,最新布局的人像3D重建感知技术,意义会更加重大,将是事关行业未来的全新突破。
“基于稳定的移动端人像3D感知技术,为用户提供多种人像AR特效,帮助用户创作出惊艳的虚实融合影像内容。”7月18日,在vivo重庆动捕实验室,相关负责人告诉实地探访和体验的“极点商业”。
这是vivo重庆动捕实验室首次对外界开放。vivo在盛典上发布的人像3D重建感知技术,正是重庆动捕实验室的创新成果。
vivo重庆动捕实验室坐落于vivo重庆智能制造中心内——作为vivo全球智能制造关键一环,vivo重庆智能制造中心于2014年布局、2017年完工并正式投产。
除了生产线,芯片、5G、AI、影像、3D等核心技术的研发应用,在此都有落子,和vivo北京研发中心、东莞智能制造基地、深圳研发中心等一起,成为完善vivo全球研发和生产布局重要一环。
从业内看,3D人像重建概念并不新鲜,被公认为是AIGC、AR/VR场景必然入口,也是数字人、机器人、自动驾驶等领域关键共性技术。
问题是,行业目前没有可以通用的3D人像重建方案——大多数3D人像成本高昂,逼真效果一般,面临算法复杂度高,难以实时处理挑战。举个例子,短视频制作公司使用到的3D化写实数字人,比如“柳夜熙”,制作成本可达到数十万到百万元不等。
vivo布局,看上去正是瞄准上述痛点——如果一款智能手机能低门槛解决3D人像重建算法复杂、算力要求高等核心挑战,那么无疑会加快相关概念产业落地速度。
依托于vivo重庆影像实验室平台,vivo在重庆动捕实验室中自主搭建了影视级光场系统。根据实验室工作人员现场透露,光场系统由175个摄像头、96盏灯环绕搭建而成,“只需3秒钟,就可以实现人像重打光DEMO,然后通过AI等技术能力,完成‘毛孔级’的3D人像重建感知。
简单来说,在vivo的3D数据采集平台中,3D人像重建感知技术是一条这样的路径:捕捉人体3D姿势数据—人脸3D重打光—通过AI算法完成3D人像重建—最终在端侧应用于实际场景。
光场系统在其中起到关键作用。“96盏灯重打光只是往中心点一个方向。”vivo动捕实验室相关人士对“极点商业”称,175个不同角度机位摄像头的投影下,可以类似“全息摄影”方式,全面、精准捕捉到人的面部表情、姿态动作以及手势交互数据和视频背景分割。
数据精确性对3D捕捉结果至关重要。在良好底层数据支撑下,该实验室重点储备了以人脸、人体和手势为核心的三大人像3D感知算法,依靠AI算法模型,实现对人脸面部表情、人体姿态动作以及手势交互感知的精准捕捉和驱动,减少动作捕捉、CG合成制作流程,最终生成一个逼真的3D目标人物。
这与传统动捕,比如抖音AR渲染有着明显区别——抖音AR渲染是2D,但vivo人像重建感知是3D,重建是一个“动起来”的过程,“3D场景精确性更高,也能提升深度信息。任何相机场景下的深度图、人脸表情,都可以与Mask结合后,实现类似于单反相机、大光圈的渐近感、真实感,让人像与背景更好融合。”
从“极点商业”实测来看,vivo人像3D重建感知技术下,坐在小凳子上后,只需灯光一闪,就完成了数据收集。生成的3D人像,AR特效相当惊艳,纹理、亮度、阴影表现远超传统专业相机,脸部甚至毛孔在细节、动作、行为的逼真度,都得到了“完美重现”。
相比技术创新,vivo追求的还有产业落地。如今,立足于人像3D重建感知技术,vivo开始加快AIGC算法的落地应用探索——帮助用户创作出虚实融合影像内容。
通过3D重建感知,配合辅助AIGC,vivo得以大幅降低了成本和门槛,可以为用户提供多种人像AR特效,比如在3D换装、3D画场景、表情驱动、数字人等方面的落地应用。
而盛典会上推出的AIGC算法,通过vivo手机可以拍出虚拟与实景结合更为自然和谐的照片,这正是vivo融合3D+AIGC虚拟内容创作技术后,在人像赛道上的应用探索:
通过vivo手机内置的AIGC四季人像模式,不仅拍出虚拟与实景结合更为自然和谐的照片,还能以假乱真,从草长莺飞的春天,到炎炎酷暑的夏天、秋日层林尽染的秋天,以及白雪皑皑的寒冬,足不出户拍出四季人像大片。
“AIGC四季人像模式,将会在未来人像摄影的使用场景中,打下坚实技术基础。”一位手机行业观察人士认为。
而在vivo影像效果产品经理张焱看来,AIGC在智能手机中的想象不止如此,比如借助AIGC算法,用户还可以实现丰富多样的人像属性编辑,如对光照、年龄、发型、表情等进行编辑。“这些未来影像的新技术、新应用,将持续激活用户创作热情。”
人像摄影一直是vivo在影像领域的主力赛道,不论是和蔡司在传统光学领域的持续沉淀,还是8年来在历代产品中不断打磨软硬件,包括在3D/AIGC未来人像上基于用户需求的不断探索,其实都是率先在行业进行移动影像“极限挑战”。
“赋予每个人表达和创作的自由空间,是手机作为影像创作工具价值所在。”在于猛看来,打造“人性化的专业影像”是vivo一直追求影像理念。vivo希望把各种复杂的影像技术和经验都放进手机,让用户不受功能、场景、时间上的限制,专业创作者可以满足极限环境下创作需求,普通用户也可以通过简单操作收获个性化的影像。
这种“极限挑战”理念追求,源自“埋头种因”和“本分”价值观下,vivo将“做正确的事”永远排在第一位。
vivo在人像领域的深耕,就是最好案例。2014年开始布局影像赛道后,vivo花费三年多时间,走访了全国55个城镇,包括北上广一线城市,也包括五、六线乡镇,在数百场深度访谈,以及上万名不同职业、年龄的消费者测试后,逐步建立了一整套消费者正确认知,让自己更懂用户,更懂影像。
用于猛的话来说,这就是:想尽一切办法、抓住一切机会,获得认知。
在认知正确基础上,vivo大踏步建立针对影像技术全链条的研发体系——毕竟,手机影像是一个系统工程,涉及软件、硬件、算法、摄像头、芯片等一系列技术的有效协同,所有环节都要做到领先,才能让影像整体领先。
2017年,vivo组建AI全球研究院,在算法、数据、算力方面建立全面AI能力,全方位赋能vivo核心长赛道。
无论是历时24个月、投入超300人研发,用硬件级算法开启手机影像行业下一个时代的自研芯片V1,还是助推vivo成为安卓首家实现4K电影人像拍后编辑功能手机厂商的自研芯片V3,都是在埋头种因后收获的硕果。
芯片自研之外,vivo与蔡司这家百年光学品牌的全面牵手,目的也是在秉承共同影像理念下,不断去突破影像想象边界。
过去几年,vivo在微云台防抖、镜头镀膜、光学镜头等方面的不断进化——包括最新与蔡司联合探索最新结构长焦镜头、对T*镀膜技术进行升级,其实还是围绕“让普通用户用手机拍出专业大片,让专业人士可自由进行创作”,缩小专业与大众摄影上的“创造力鸿沟”,共同探索移动影像新高度。
这些在移动影像领域的深刻理解、专业技术和自我超越,vivo得以奠定影像领域的全球优势,引领中国世界移动影像进入中国时刻——哪怕与iPhone相比,vivo表现也不落下风。人们心中对vivo坚守的“长期主义”,也有了更多新认知。
可以畅想的是,“第四次产业革命”浪潮席卷,大模型、AIGC必将进入移动影像领域趋势下,其使用场景将有着巨大的想象空间,“手机影像大师”有机会书写更多AI传奇。
一个例子可以说明,此前vivo相关的AI工程师已经超过1000名,仍在源源不断投入,将更多AI研发人才纳入囊中。vivo官网最新招聘显示,其正在招聘大量AI算法专家、AR/VR领域AI大模型专家、图像AIGC算法专家、AI产品经理,3D光学动捕算法工程师、工作地点位于深圳、杭州、重庆等地。
“基于AI影像领域的探索,vivo瞄准的是更大世界。”一位资深手机从业人员评价说。
目前,AIGC在vivo手机中的应用主要是人像,但AI与影像生产力工具结合紧密趋势下,AIGC未来在vivo中也会有更多用武之地,比如与手机终端语音助手结合,可以更快速、准确理解语义。
AI大时代下,AI在文字、语音、图像、视频,教育场景、音乐创作等领域,与手机融合具备广泛应用空间,让手机工具价迎来更大爆发。比如,教育场景通过AI个性化因材施教,让中小企业、普通用户都能低门槛、低成本拥有属于自己的逼真“数字人”——而非当前AI写真照片。
或者,让所有人可以通过AI进行创作,或者代码编写、识别翻译,实现内容生态的新一轮范式转移。以及,在AR、元宇宙等虚拟世界中,加速实现环境、虚拟人物的构建需求,去无限逼近真实。在远程医疗、智能汽车等方面,AI与手机的结合同样充满想象空间。
这些未来畅想的实现或融合创新基础,毫无疑问仍然基于影像。
“vivo将把影像视为和AI、5G、6G通信一样的底层技术能力。”在于猛看来,在不远的未来,vivo将把影像当成一种AI底层能力,去和其他产业融合创新,“如同互联网改造制造业一样,影像的价值也远不止拍照、游戏,而是与AI、互联网一样有无限可能。”
武器科技 2024-12-21
黑科技老黄 2024-12-21
武器科技 2024-12-21
武器科技 2024-12-21