Sora迎来新竞争者！Luma AI推出视频生成模型，用户涌入网站需排队

作者：第一财经陆家嘴发布时间：2024-06-14

Sora还未开放公测，视频生成领域迎来了新的竞争者。当地时间6月12日，AI初创公司Luma AI发布视频生成模型Dream Machine，该视频生成模型支持文生视频和图生视频模式，目前可免费试用。或是因为网站涌入用户量过多，记者看到，其官网显示“因需求量大，请求将排队”。

从Luma AI官方放出的视频看，Dream Machine生成视频的质量颇高。例如，眼部特写可看清眼球中变幻的色彩，老虎在雪地中行走动作自然，脸部特写光影斑驳、镜头移动自然，人物动作衔接流畅。已有网友在社交平台上放出用Dream Machine制作的视频，画面看上去颇为真实，例如，北极熊在野外行走时毛发自然，沙漠中的汽车扬起沙粒。

Luma AI官方发布的视频截图

记者将“In Japanese comic style, a girl stands in a train, gazing out at the autumn scenery outside the window”（日本漫画风格，一个女孩站在列车中望向窗外的秋景）提示词输入Pika和Dream Machine，从生成的视频看，后者更胜一筹。Pika的视频3秒，视频中的女孩站在列车外而不是列车内，列车经过时图像有所变形，且风格不符合描述。Dream Machine单个视频时长5秒，人物位于列车内，风格更贴切。

Pika生成的列车与女孩视频

Dream Machine生成的列车与女孩视频

据Luma AI官网介绍，Dream Machine可生成120秒120帧的视频。Luma AI同时指出Dream Machine的限制所在，包括画面中动作还会变形，主体运动动作不够合理等，例如一条狗在路上行走时脚不沾地、北极熊的头更换了位置。目前，免费用户每个月可生成30次视频，付费用户一个月有120~2000次机会生成视频，一个月收费29.99~499.99美元。

Luma AI成立于2021年，创始人兼CEO Amit Jain曾是苹果计算机视觉工程师，联合创始人Alex Yu毕业于加州大学伯克利分校。Luma AI经历多轮融资，A轮融资筹集了2000万美元，英伟达投资部门参与了此轮融资。B轮融资筹集金额4300万美元，英伟达、风投机构Andreessen Horowitz参与了此轮融资。2023年，Luma AI曾推出一款名为Genie的工具，用于将2D图片生成3D模型。

文生视频、文生图领域进展近日有所加快。当地时间6月12日，Stability AI开源了Stable Diffusion 3 Medium。Stability AI称，该模型是Stable Diffusion 3系列中最新、最先进的文本转图像模型，有20亿参数，在非商业情况下可免费试用，商用场景下面向艺术家、设计师等提供创作者许可证。Stable Diffusion 3采用与Sora相同的底层架构DiT（融合了Transformer和Diffusion）。

记者了解到，文生图和视频生成模型迈向成熟的一个关键是，技术路线都朝着Transformer+Diffusion的方向演进，相比Diffusion，Transformer+Diffusion可实现较好的扩展性。从文生图到视频生成模型则存在一定的演进关系。

与Luma AI相似，国内AI创业企业生数科技在进入视频生成领域前聚焦的方向也是3D，其选择的技术路径也是融合Transformer和Diffusion的U-ViT框架。除了Stable Diffusion 3 Medium开源，5月腾讯也开源了DiT架构的混元文生图模型Hunyuan-DiT。一名资深视频生成行业人士告诉记者，业内Trnsformer+Diffusion的路径相对比较成熟，但视频生成算法成熟度仍有限，厂商间技术方向彼此没有太大的差别，差别可能在于所能投入的资金。