Sora还未开放公测,视频生成领域迎来了新的竞争者。当地时间6月12日,AI初创公司Luma AI发布视频生成模型Dream Machine,该视频生成模型支持文生视频和图生视频模式,目前可免费试用。或是因为网站涌入用户量过多,记者看到,其官网显示“因需求量大,请求将排队”。
从Luma AI官方放出的视频看,Dream Machine生成视频的质量颇高。例如,眼部特写可看清眼球中变幻的色彩,老虎在雪地中行走动作自然,脸部特写光影斑驳、镜头移动自然,人物动作衔接流畅。已有网友在社交平台上放出用Dream Machine制作的视频,画面看上去颇为真实,例如,北极熊在野外行走时毛发自然,沙漠中的汽车扬起沙粒。
Luma AI官方发布的视频截图
记者将“In Japanese comic style, a girl stands in a train, gazing out at the autumn scenery outside the window”(日本漫画风格,一个女孩站在列车中望向窗外的秋景)提示词输入Pika和Dream Machine,从生成的视频看,后者更胜一筹。Pika的视频3秒,视频中的女孩站在列车外而不是列车内,列车经过时图像有所变形,且风格不符合描述。Dream Machine单个视频时长5秒,人物位于列车内,风格更贴切。
Pika生成的列车与女孩视频
Dream Machine生成的列车与女孩视频
据Luma AI官网介绍,Dream Machine可生成120秒120帧的视频。Luma AI同时指出Dream Machine的限制所在,包括画面中动作还会变形,主体运动动作不够合理等,例如一条狗在路上行走时脚不沾地、北极熊的头更换了位置。目前,免费用户每个月可生成30次视频,付费用户一个月有120~2000次机会生成视频,一个月收费29.99~499.99美元。
Luma AI成立于2021年,创始人兼CEO Amit Jain曾是苹果计算机视觉工程师,联合创始人Alex Yu毕业于加州大学伯克利分校。Luma AI经历多轮融资,A轮融资筹集了2000万美元,英伟达投资部门参与了此轮融资。B轮融资筹集金额4300万美元,英伟达、风投机构Andreessen Horowitz参与了此轮融资。2023年,Luma AI曾推出一款名为Genie的工具,用于将2D图片生成3D模型。
文生视频、文生图领域进展近日有所加快。当地时间6月12日,Stability AI开源了Stable Diffusion 3 Medium。Stability AI称,该模型是Stable Diffusion 3系列中最新、最先进的文本转图像模型,有20亿参数,在非商业情况下可免费试用,商用场景下面向艺术家、设计师等提供创作者许可证。Stable Diffusion 3采用与Sora相同的底层架构DiT(融合了Transformer和Diffusion)。
记者了解到,文生图和视频生成模型迈向成熟的一个关键是,技术路线都朝着Transformer+Diffusion的方向演进,相比Diffusion,Transformer+Diffusion可实现较好的扩展性。从文生图到视频生成模型则存在一定的演进关系。
与Luma AI相似,国内AI创业企业生数科技在进入视频生成领域前聚焦的方向也是3D,其选择的技术路径也是融合Transformer和Diffusion的U-ViT框架。除了Stable Diffusion 3 Medium开源,5月腾讯也开源了DiT架构的混元文生图模型Hunyuan-DiT。一名资深视频生成行业人士告诉记者,业内Trnsformer+Diffusion的路径相对比较成熟,但视频生成算法成熟度仍有限,厂商间技术方向彼此没有太大的差别,差别可能在于所能投入的资金。