AI视频生成有了新进入者。日前,腾讯控股(00700.HK)与清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”。使用者可点击对应区域并加上提示词,使特定对象运动。从放出的视频看,运动时间为几秒。
OpenAI今年2月推出Sora,可生成60秒连贯视频,是目前视频生成效果最好的AI模型。Sora计划在今年晚些时候面向公众开放。在这段时间里,大模型企业抓紧追赶Sora。记者了解到,运动无法准确控制是目前主要视频生成工具的一大弊病,这正是“Follow-Your-Click”着力改善的。但从文生图到图生视频,国内AI工具追赶先进水平仍有一段路要走。
可控制对应区域运动
相关论文称,图生视频的可控性和局部动画探索较少,多数图生视频方法倾向于移动整个场景。当前的I2V(Image-to-video generation,图生视频)技术还要求用户描述目标运动并提供帧内容的冗余详细描述。论文提出新的I2V框架“Follow-Your-Click”,通过用户点击和简短的运动描述提示,实现图像动画。为此,研究人员设计了WebVid Motion数据集,强调人类情感、动作和物体常见运动,并设计了一个运动增强模块,使模型能理解短提示。该论文提出的方法能通过多次单击来控制多个对象和移动类型。
从“Follow-Your-Click”演示视频看,选中鸟、雷电、人、火箭等,便可根据“转头”“笑”“伤心”“发射”等简短提示生成几秒视频。在提示词为“伤心”的视频中,人物低头掩面哭泣,动作较流畅。
不能准确控制画面中具体人物或物体的运动,是现有AI视频生成工具需要解决的问题。有AI视频创作者向记者表示,目前的AI工具视频生成效果不佳的一个原因是时长不足,另一个是难以准确描述运动,很多画面只能实现视差动画,例如将人物放大缩小以展示人物走动,或者物体前后左右摆动,并不真实,使用者也难以通过提示词控制这些运动。为此,需要不断调整图片内容,减少画面复杂程度,避免AI生成太多不符合逻辑的动作。还有创作者使用Runway创作视频,给定两个人物战斗的图片,AI却生成了两人放下兵器握手的画面。
腾讯混元大模型团队还在研究和探索多模态技术。此外,字节跳动今年1月推出文生视频模型MagicVideo-V2,将文生图模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成流程中。还有消息称字节跳动在研发名为Boximator的视频生成模型,字节此前回应称,这是一个视频生成领域控制对象运动的技术方法研究项目,与国外领先的视频生成模型在画面质量、保真率和视频时长等方面还有很大差距。
距离多远
从文生图到图生视频,国内AI工具距离海外先进水平有多远?
图生视频需要先有图片。有AI行业从业者告诉记者,他尝试了Midjourney和智谱AI、文心一言、通义千问、昆仑天工、字节豆包、腾讯混元等主要图片生成工具后发现,在细节、画面表现力等方面,国内图片生成工具与Midjourney还有明显距离。“图片生成海外目前做得较好的是美国的几个科技公司,现在国内的工具大约比海外慢一个版本,差距是半年到一年时间。”一名研究AI应用的技术人员告诉记者。
但也有AI视频创作者向记者表示,Midjouney等海外图片生成工具也有弊病,其素材库不一定符合国内创作者的要求,例如生成的中国古代人物更接近东亚其他国家人的面相,海外工具对中国历史文化的理解也不够,体现在生成物品的细节上不合适。
视频生成方面,不论是国内还是海外企业,目前都还没有拿出明显能匹敌Sora的产品。但近期国内有多家发力多模态大模型的企业拿到融资,且透露正在追赶Sora。
近日,生数科技完成一轮数亿元融资,生数科技CEO唐家渝表示,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验之后,追赶Sora肯定比追赶GPT-4轻松很多,预计今年可以达到Sora目前版本的效果。AI视频生成公司爱诗科技近日也传出完成亿元级别人民币A1轮融资的消息,创始人王长虎表示,未来将集中人力和资源,在3~6个月内赶超Sora目前水平。