来源 | Tech星球
文 | 任雪芸
当视频作为信息传递模式出现,文字、数据、声音在视频相衬之下显得相对冗长和单调。于是,谷歌在2015年就给出了这样的预测:“未来互联网世界80%的内容将是以视频形式呈现的。”
随之抖音、快手为代表的新一代现象级应用的诞生,使得短视频赛道全面爆发。
不同于有组织的数据,以视频和图片为主的非结构化数据快速增长,为企业的带宽和性能带来巨大压力。随着越来越多的企业关注视频,各类厂商对视频云的需求与日俱增,视频云随之扩张。
据艾瑞咨询提供的数据报告显示,从2022年到2027年中国音视频云服务的市场规模复核增长率将达到24.4%。内容视频化的趋势带动了视频云行业的增长,但市场规模持续扩大的背后,关乎于用户体验的视频质量,需要视频云厂商为此不断提供底层算力支持与视频技术的优化。
早在今年4月份,春季火山引擎 FORCE 原动力大会上,火山引擎总裁谭待就指出,更高清、更互动、更沉浸是消费者视频体验提升的三个关键方向。
为此,面对这一市场趋势,火山引擎持续基于技术能力的提升和解决方案的迭代,为企业视频化服务提供新的增长动力。8月22日,火山引擎举办视频云&AIGC技术大会,基于软硬件技术的一体化创新推动了视频云行业的新变革。
视频体验的每一次优化,其本质都是背后技术的突破与演进。
伴随着视频规模的持续增长,用户对视频清晰度体验的追求持续提升,而网络和终端硬件设备也在不断进行迭代。不能否认的是,在视频数字化趋势之后,超高清化的视频让各大厂商面临着持续且重大的技术革新。
从移动互联网终端观看分辨率去看,早先的360P、480P几乎被用户抛弃,当下用户的选择逐步从720P、1080P走向4K、8K这类超高清视频。不局限于清晰度本身,当下沉浸式的视频体验同时也会追求更高帧率,和更宽的色域。
在“更清晰”、“更畅快”的需求背后,表面上是分辨率和帧率的提升,以及色域的增强。但从视频云所肩负的责任出发,其面临的则是视频信息量的成倍增加。用户所需要的极致视频体验和带宽、计算成本、编码速度之间的冲突在不断加深。
与此同时,当下以AIGC为代表的AI能力、Apple Vision为代表的MR/XR等技术正迅速崛起,随着这些技术的飞速发展,物理世界与虚拟世界的壁垒不断被打破。
基于技术方案的升级,如何实现各场景中终端用户对沉浸式、智能化视频的需求成为了摆在眼下的难题。
作为字节跳动旗下的云服务平台,火山引擎在产业端深度覆盖了抖音等字节系App,通过长期服务抖音、西瓜视频、飞书等产品,沉淀积累了包括视频点播、直播、实时音视频、云游戏和云渲染等产品在内的大量经验和解决方案,可提供视频的全链路技术服务。
而内部业务的高速循环推动了火山引擎的持续增长和创新需求的爆发。于是,从2022年起,火山引擎就推出了以云为底座的一系列产品解决方案,包括企业上云和智能营销通用方案。
此次,火山引擎视频云技术能力继续升级,基于软硬件的迭代和AIGC技术的成熟,对于各场景视频云的应用给出了新的解法:既要实现软硬协同,又要深度自研。
在这次大会上,火山引擎发布了一款自研视频编解码芯片。相对于行业主流硬件编码器,这款芯片能够带来30%左右的效率提升。
在具体的业务场景应用上,这款芯片所具备的超高算力密度能对大量,甚至全量的点播或直播的视频提供高质量的转码,从而降低业务带宽成本并提升用户体验和业务指标。
此外,这款芯片为不同视频场景提供不同的算力支持,火山引擎实现了通用算力到异构算力的跨越,除了ASIC算力的自研芯片外,火山引擎FPGA硬件编解码器曾获得多项国际赛事奖项。据Tech星球了解,自研的高密度ARM阵列服务器能够为用户提供极具性价比的算力,相比x86资源,可以节省40%以上的成本。
构建在异构算力之上,在视频中,基于提升用户体验和降低成本的角度出发,其往往需要经历转码、编辑、分析,图片处理等各类视频处理方式,在这些能力背后,一个视频底层的处理系统支撑着上层业务的流转。
以BMF框架为例,作为一个动态多媒体处理框架,其目标是把所有多媒体处理的原子能力进行插件化管理,然后提高系统的可扩展性以及开发和运维的效率。
随着字节自身短视频和图片业务的井喷式增长,BMF最终跳脱于传统框架,实现了对视频生产、下发、到播放等全链路视频周期的覆盖。在此次产品升级中,火山引擎方面表示,BMF框架的功能多样性、易用性、兼容性、稳定性和性能得到了充分的打磨,因此,正式对外实现开源。
当下自研芯片、ARM阵列服务器和BMF框架开源已经成为了火山引擎视频云的基础底座。随着这些技术能力的进一步释放,以及智能汽车、金融、医疗、社交等新场景的不断丰富,视频云技术得到了持续的扩展。
此外,综合考虑到客户各类需求,当下视频云厂商们越来越倾向于提供整合能力 ,基于客户使用的实际场景灵活切换使用。
以自动驾驶场景为例,毫末智行与火山引擎携手打造了远程驾舱及运营平台产品,支持监督、脱困丰富介入模式,键鼠、手柄、驾驶模拟器多种部署方式,而且实现了低卡顿、低时延、低带宽占用。
这款产品目前已经应用到毫末智行全栈自研的末端物流自动配送车小魔驼之上,能够在远程车控场景中实现车机视频采集和远端操作员的同步,以此保证驾驶操作安全、可靠、稳定。
根据数据显示,基于毫末智行与火山引擎打造的这款产品,在驾仓的应用中,视频的卡顿率能够降低到0.3%,视频端到端的时延能够达到100ms,同等清晰度的情况下,带宽的占用减少30%左右。
目前,火山引擎视频云在云游戏、金融直播审核、互动营销、智慧汽车、互娱等领域已经成为了基础设施,在各类场景的使用中,它一直在为“更高清”、“更交互”、“更沉浸”的视频体验做出努力。
对于视频云行业的玩家们而言,在提供给用户超高清和超低时延、强融合的视频平台背后,云厂商们需要具备底层强大的算力支持,还需要利用以AIGC为代表的技术推动内容生成。
自ChatGPT发布以来,AIGC如同打开了创新之门,各种类型的AI创新产品持续出现,随着AIGC的技术迭代,AI能力应用于视频愈加普遍。
以视觉大模型应用于影视修复为例,这是火山引擎在近日联合抖音做的项目——对100部香港经典老电影进行4K修复。
众所周知,老电影的修复工艺往往是复杂且琐碎的,要历经物理修复、数字修复、艺术修复等步骤。一位经验丰富的修复师需要长达1个月的时间才能够修复完成一部影片。
但随着深度学习AI技术的发展,老片修复的质量和效率正在进一步提升。
2021年7月,火山引擎曾首次面向企业推出了“智能处理”工具包,将经过抖音打磨和验证的同款技术对外输出。目前,火山引擎视频云已经形成了更为完整的智能处理系统,以老片修复为代表场景的画质增强技术是其中一项子功能。
与此同时,据Tech星球了解,控制模型的边界条件、强化高质量生成空间等手段,火山引擎视频云提升了大模型的图像输出质量。通过采用设计时域的自编码器、光流特征对齐、时域条件约束等技术手段,让大模型在修复的过程中能够完整使用前后帧的信息,更好地处理视频任务。
当下,这样的技术也被应用在虚拟演播室之中。在火山引擎视频云与云创智媒的合作中,为央视提供技术支持,破除环境局限、降低硬件成本和专业门槛是核心目标。
在这样的目标背后,火山引擎视频云基于中台算力部署,进行云渲染制作,能够实现可视化交互流程和无绿幕抠像的能力。此外,通过整合火山引擎视频云AI能力,其搭建媒体生产AI处理平台。据云创介绍,基于云渲染的分布式部署架构,能够实现AI能力的按需调用。
不仅在传媒领域,千行百业视频内容的爆发,对创作工具提出了更高要求,为了帮助企业高效生产内容,火山引擎视频云团队与智能创作云团队正在为企业提供智能、快速、批量的视频创作工具,涵盖从创意策划、内容制作、内容管理、内容发布、数据反馈的创作全流程。
通过智能创作,抖音店铺通过精彩的短视频或是生动的直播实现拉新,金融行业数字人直播通过内容促活,激发业务增长,自如通过VR看房提升效率的同时,也大大增加了转化率。
火山引擎融合AIGC,正在实现脚本的撰写、改写和扩写,并通过文生图的能力制作海报,这些AI工具大大地解放了生产力,让企业有了更大胆的创新空间。
不局限于内容生产,AI同样在改变虚拟数字人的诞生。
针对虚拟数字人,火山引擎推动了形象自然写实、海量音库、交互技术闭环的升级。分别对应于虚拟数字人声音复刻、任意模态合成音效、超拟人效果等。
其中,形象自然写实技术支持2D真人、3D卡通、3D超写实全类型形象定制,同时支持低成本真人1:1形象复刻。
音库则能够适配汽车、金融、新闻播报、政府等多个核心领域,支持10余种语种和方言。
据火山引擎具体介绍,声音复刻的自然度高达4.6分,能够充分利用低质量海量音频数据,对其中的口音、风格、情感进行解耦并建模,从而存储大量音频属性,实现应用中的自由迁移。
在合成音效上,用户可以输入任意文字来合成想要的音效,并结合开源数据进行训练。在超拟人效果上,通过利用低质量海量视频数据建立起的通用数字人基础大模型,能够生成表情、动作、声音更协同的数字人。
2022年,火山引擎曾推出了以云为底座的一系列产品解决方案,这个脱胎于字节跳动快速发展过程中的云服务平台,持续将积累的增长方法、技术能力和应用工具开放给外部企业。
而此次,随着软硬件的升级和场景的持续落地,在与AIGC结合的大趋势下,火山引擎视频云所打造的“智能视频”正在改变原本的交互方式,从业务应用的角度上持续提升视频内容成产效率。
尽管当下视频云还处在技术竞争时代,能力模型的同质化明显,但当产品进入行业落地和场景应用时,基于AIGC能力的深化,打造软硬协同的一体化能力将成为下半场行业竞争的关键。#火山引擎发布自研视频芯片#