【导读】字节跳动正式宣告进军AI视频生成,豆包视频生成大模型正式发布
中国基金报记者 张燕北
国内AI大模型领域角逐最激烈的视频生成赛道迎来新玩家,字节跳动正式宣告进军AI视频生成。
9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了两款视频生成大模型,首次面向企业市场开启邀测。
字节跳动发布两款视频生成大模型
在2024火山引擎AI创新巡展上,火山引擎总裁谭待宣布推出豆包·视频生成模型。两款新发布的大模型分别是,豆包视频生成-PixelDance和豆包视频生成-Seaweed。
这两款大模型的发布,意味着字节跳动首次正式宣告进军AI视频生成。
在活动现场,火山引擎总裁谭待展示了这两款视频生成的效果。可以看到,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均已达到业界领先水平。
在应用场景上,谭待表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐MV、微电影和短剧等。
“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”谭待表示。
未来将逐步开放给所有用户
相较于大多只能完成简单指令的视频生成模型,豆包视频生成模型能够实现自然连贯的多拍动作与多主体复杂交互。
据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,能更充分地压缩编码视频与文本,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
此外,豆包视频生成模型另外一大技术创新是全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题。该模型还使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。
此前,字节跳动旗下的剪映团队已上线即梦AI,其核心功能包括图片生成、智能画布、视频生成以及故事创作等。
据字节跳动透露,目前,新款豆包视频生成模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。
剪映和即梦AI市场负责人陈欣然指出,AI能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦AI希望成为用户最亲密和有智慧的创作伙伴。
大厂纷纷发力视频生成
当前,国内AI视频生成激战正酣,头部互联网大厂纷纷发力。
今年2月,OpenAI发布视频大模型Sora开启AI视频新时代,此后半年时间内,国产AI视频大模型也密集诞生。
6月份,快手发布视频生成大模型“可灵”,对标Sora,支持通过文生视频、图生视频、视频续写功能,生成最长2分钟、30fps的1080p高分辨率视频。
“可灵”上线一周后,专注于3D内容生成技术的AI初创公司LumaAI发布了Dream Machine 1.5,每120 秒能生成120帧画面,还能快速生成5秒钟的电影级别视觉效果视频片段。
进入9月以来,AI视频之战再次掀起高潮。在9月19日召开的云栖大会上,阿里云CTO周靖人宣布通义万相全面升级,并发布全新视频生成模型,可生成影视级高清视频,应用于影视创作、动画设计、广告设计等领域。
9月23日,美图公司公布旗下美图奇想大模型(MiracleVision)视频生成能力全面升级,实现生成能力、生成效率以及模型性能的三重进阶,视频生成时长与画质、流畅性、真实性及可信度等方面提升显著。
在业内人士看来,随着科技的不断进步,AI视频生成领域正迎来前所未有的发展机遇。字节跳动凭借其强大的技术实力和市场影响力,正式进军AI视频生成领域,无疑将为整个行业带来新的活力和创新。
编辑:舰长
审核:许闻