火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

作者：21世纪经济报道发布时间：2024-10-15

10月15日，火山引擎在视频云技术大会上发布了大模型训练视频预处理方案，助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前，该技术方案已应用于豆包视频生成模型。

火山引擎总裁谭待在活动致辞表示，在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变，“基于抖音业务实践和与行业客户共创，火山引擎视频云正积极探索AI大模型与视频技术的深度融合，在技术底座、处理链路和业务增长层面为企业寻找解法。”谭待说。

自研多媒体处理框架BMF ，助力豆包视频生成模型突破业界难题

据介绍，对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

抖音集团视频架构负责人王悦表示，对大模型厂商而言，上述过程中面临着诸多挑战。

“首先，超大规模视频训练数据集导致计算和处理成本激增，”王悦说，“其次是视频样本数据参差不齐，然后是处理链路环节多、工程复杂，最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

图说: 抖音集团视频架构负责人王悦介绍火山引擎大模型训练视频预处理方案。

借助Intel的CPU、GPU等不同资源，火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF，能有效应对模型训练的算力成本挑战。此外，该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。值得一提的是，火山引擎本次还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速，更加轻量、通用。

Bytedance Research 负责人李航介绍，豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。

据了解，豆包视频生成模型PixelDance于9月24日发布，该模型采用 DiT 架构，通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题，在业界引起广泛关注。目前，豆包视频生成模型已通过火山引擎面向企业开启邀测。

多项“音视频+AI”技术方案，助力企业全链路适配AIGC时代

此次活动中，火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案，从视频的生产端、交互端到消费端，全链路融入了AI的能力。

火山引擎视频云负责人Yongyuan 指出，在AI视频时代，人和AI交互变得更加动态和生动，这要求处理链路更加智能和交互。

以对话式AI实时交互方案为例，依托豆包大模型和火山引擎视频云自研的多项算法，火山引擎为用户提供了智能对话和自然语言处理的强大能力，可实现毫秒级人声检测和打断响应，以及丝滑稳定的端到端响应体验。

在沉浸式消费体验方面，火山引擎通过AI生成3D内容和大场景重建方案，为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产，并以虚拟直播间的形式应用于抖音的戏曲直播场景。

大会上，王悦还透露了字节自研视频编解码芯片的最新进展，经过抖音集团内部的实践验证，该芯片在同等视频压缩效率下，成本节省了95%以上，还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。

王悦表示，该芯片将于近期正式对外开放测试，招募首批种子用户，共同探索商业价值的可复制性。

火山引擎视频云团队为字节跳动提供音视频技术，并通过火山引擎服务外部客户。

文/张德帅

更多内容请下载21财经APP

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

推荐体验

相关资讯

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

讯飞星火大模型将再次升级，火山引擎发布大模型训练视频预处理方案 | 蓝媒GPT

追赶文生视频领域，火山引擎推出豆包·视频生成模型

豆包视频生成模型交作业，火山引擎谭待：大模型要从卷价格走向卷性能

字节发布豆包视频生成大模型

近期资讯

大唐株洲发电有限责任公司取得一种吊轨式三维数据采集机器人专利，避免工作人员因检修拆卸机器人花费时间长而干扰检修效率

西门子股份公司申请冗余自动化系统和用于运行的方法专利，实现动态运行时数据的有效协调

武汉尹珞蝌蚪教育科技取得一种支撑机构及机器人复合夹具专利，大大减小了滑块和滑轨的体积

通用电气申请用于模型校准的方法和系统专利，能够识别模型调谐参数至少一个值

长江电力申请基于模糊综合评价法的封闭母线微正压装置控制方法专利，有效提升水电站发电机组的运行可靠性

招商局重庆交通科研设计院取得具有预紧力自适应性的轨道桥巡检机器人专利，提升防打滑效果并降低导向轮磨损

科大智能物联申请多晶硅还原炉控制方法专利，优化能源使用减少能耗

建型建材取得石膏砌块自动夹取机械手专利，有效地提高石膏砌块搬运效率

华能荆门热电申请调节阀线性纠偏专利，提高调节的稳定性和快速性

瑞安市鹏达冲压件有限公司取得弹簧盘自动化装夹设备专利，改变吸盘位置无需人工手动拆装调节

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响