腾讯推出图生视频模型国产模型距Sora有多远？

作者：第一财经发布时间：2024-03-18

AI视频生成有了新进入者。日前，腾讯控股（00700.HK）与清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”。使用者可点击对应区域并加上提示词，使特定对象运动。从放出的视频看，运动时间为几秒。

OpenAI今年2月推出Sora，可生成60秒连贯视频，是目前视频生成效果最好的AI模型。Sora计划在今年晚些时候面向公众开放。在这段时间里，大模型企业抓紧追赶Sora。记者了解到，运动无法准确控制是目前主要视频生成工具的一大弊病，这正是“Follow-Your-Click”着力改善的。但从文生图到图生视频，国内AI工具追赶先进水平仍有一段路要走。

可控制对应区域运动

相关论文称，图生视频的可控性和局部动画探索较少，多数图生视频方法倾向于移动整个场景。当前的I2V（Image-to-video generation，图生视频）技术还要求用户描述目标运动并提供帧内容的冗余详细描述。论文提出新的I2V框架“Follow-Your-Click”，通过用户点击和简短的运动描述提示，实现图像动画。为此，研究人员设计了WebVid Motion数据集，强调人类情感、动作和物体常见运动，并设计了一个运动增强模块，使模型能理解短提示。该论文提出的方法能通过多次单击来控制多个对象和移动类型。

从“Follow-Your-Click”演示视频看，选中鸟、雷电、人、火箭等，便可根据“转头”“笑”“伤心”“发射”等简短提示生成几秒视频。在提示词为“伤心”的视频中，人物低头掩面哭泣，动作较流畅。

不能准确控制画面中具体人物或物体的运动，是现有AI视频生成工具需要解决的问题。有AI视频创作者向记者表示，目前的AI工具视频生成效果不佳的一个原因是时长不足，另一个是难以准确描述运动，很多画面只能实现视差动画，例如将人物放大缩小以展示人物走动，或者物体前后左右摆动，并不真实，使用者也难以通过提示词控制这些运动。为此，需要不断调整图片内容，减少画面复杂程度，避免AI生成太多不符合逻辑的动作。还有创作者使用Runway创作视频，给定两个人物战斗的图片，AI却生成了两人放下兵器握手的画面。

腾讯混元大模型团队还在研究和探索多模态技术。此外，字节跳动今年1月推出文生视频模型MagicVideo-V2，将文生图模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成流程中。还有消息称字节跳动在研发名为Boximator的视频生成模型，字节此前回应称，这是一个视频生成领域控制对象运动的技术方法研究项目，与国外领先的视频生成模型在画面质量、保真率和视频时长等方面还有很大差距。

距离多远

从文生图到图生视频，国内AI工具距离海外先进水平有多远？

图生视频需要先有图片。有AI行业从业者告诉记者，他尝试了Midjourney和智谱AI、文心一言、通义千问、昆仑天工、字节豆包、腾讯混元等主要图片生成工具后发现，在细节、画面表现力等方面，国内图片生成工具与Midjourney还有明显距离。“图片生成海外目前做得较好的是美国的几个科技公司，现在国内的工具大约比海外慢一个版本，差距是半年到一年时间。”一名研究AI应用的技术人员告诉记者。

但也有AI视频创作者向记者表示，Midjouney等海外图片生成工具也有弊病，其素材库不一定符合国内创作者的要求，例如生成的中国古代人物更接近东亚其他国家人的面相，海外工具对中国历史文化的理解也不够，体现在生成物品的细节上不合适。

视频生成方面，不论是国内还是海外企业，目前都还没有拿出明显能匹敌Sora的产品。但近期国内有多家发力多模态大模型的企业拿到融资，且透露正在追赶Sora。

近日，生数科技完成一轮数亿元融资，生数科技CEO唐家渝表示，拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验之后，追赶Sora肯定比追赶GPT-4轻松很多，预计今年可以达到Sora目前版本的效果。AI视频生成公司爱诗科技近日也传出完成亿元级别人民币A1轮融资的消息，创始人王长虎表示，未来将集中人力和资源，在3~6个月内赶超Sora目前水平。