免费公测挤爆服务器，对标Sora靠物理感赢得好评

作者：蓝鲸新闻发布时间：2024-07-24

作者丨子墨

继Sora、Runway、Pika后，又一图（文）生视频的AI产品爆火——Dream Machine。

Dream Machine背后是一家成立于2021年的美国公司，名为Luma AI。3年以来成功进行了3轮融资，合计融资额6730万美元。最近一次进行的B轮融资4300万美元发生在今年1月，由著名风投机构a16z领投，英伟达二次跟投，投后估值达到2-3亿美元。

今年6月，Dream Machine在全球范围内开启免费公测，每个用户每月有30次免费生成视频的机会，每条视频时长为5秒。为了能和先入局者对标与抗衡，它更突出了“效率”、“物理”、“运镜”几个特点。仅用120秒的时间即可生成120帧视频是主打特色之一（不过在公测期间排队人数过多，用户普遍反馈生成一个视频需要10-20分钟时间，有的甚至要2个小时）,能够模拟物理世界，还特别强调角色一致性，并能通过自然的运镜技巧，让画面更加流畅逼真，与所表达的情感相融合。用户的头脑风暴让生成的视频充满了创意与想象，运用在广告宣传、教学培训、故事创作等领域的应用，也起到了明显的降本增效作用。

AI视频生成产品哪家强？

在设计上Dream Machine的页面直观且简单，有文生视频和图生视频两个功能。文生视频中，用英文描述的效果会更好一些，想要让生成的视频更加符合需求，需要尽量精准且详细的文字描述，还可加上一些关于情感表述的词语，让效果更加逼真。

不过对于文字创作能力没那么好强的用户来说，图生视频功能会更受青睐，因为它更像是在一个作品上的二次加工。只需上传一张图片，再根据脑海中的情景加入一段文字描述，就可以让静态的图片动起来，将画面中展现的故事通过视频形式讲述出来。

在Twitter上我们可以看到用户分享的各种创意视频，有搞笑的让蒙娜丽莎画像动起来、用自拍照还原自拍时的场景、还有温情的”复活“重要的人让场景重现等等。可以说是AI创作工具加上用户丰富的想象力，赋予了作品新的生命力。

而在这个赛道上，对标一直是离不开的话题。从架构来看，Dream Machine与Sora同样都是使用Diffusion Transformer架构，关联性会更高一些；从生成内容来看，相比Runway和Pika，Dream Machine的差异化体现在动作幅度更加大，镜头切换角度更多且更快，而不是只让视频中的物体稍微动一动，不过由于目前模型还处于初级阶段，可控性问题也由此而生。例如在用户测试时就出现过，动物镜头切换时出现不符合常理的多头现象，整体来说，数据和模型还都有很多可优化的点。

再从单次生成视频时长来看，Dream Machine可在120秒生成一段5秒视频，Runway则更快一些，90秒可生成10秒视频，最新版本中可延长至18秒，而Pika还是单次只能生成3秒的视频，Sora作为鼻祖，算是已经打破了时长局限，可以生成长达1分钟的视频，但差不多要用1个小时的时间来渲染。再对比几个产品的收费定价，免费测试阶段过后，Dream Machine的整体收费最高，而Pika的专业版定价是其标准版的6倍，其他产品都在2-3.5倍左右。

（AI视频生成产品价格对比）

最后从视频生成效果上看，同一段文字表述，不同产品生成的视频风格各异。相比于其他产品，电影感和物理真实感是用户在使用Dream Machine时候的普遍感受之一，它生成的视频镜头感和可代入感更加强烈。总结可能原因有两点，一是产品在模型训练时使用了大量电影片段，这也让生成的视频充满了想象，并不局限于原画面中的事物，而是增加了一些额外的场景，还对动画人物的处理加上嘴部动作，显得更加真实；而另外一点则是与背后公司在3D建模方面的技术与经验积累息息相关。

文生3D小手办，技术积累功不可没

Luma AI在成立之初就专注于3D内容生成，之前上线的一款文生3D模型应用Genie1.0曾一度爆火全球。该应用有PC网页版、手机APP版（名为Luma AI），并还可以在海外广泛应用的Discord服务器上使用。

仅需输入一句文字描述，10秒时间便可生成4个逼真的3D模型，类似于一个”小手办“，根据个人喜好选取后，还能够自行编辑质感，包括原始、光滑和反光三种。最后可以通过fbx、gltf、obj等多种格式输出，实现与其他3D编辑软件（如Unity和Blender）的无缝对接，让模型能够动起来，完美契合游戏、动漫等场景，真正做到了为下游提供场景赋能。

Genie1.0的低技术门槛也让用户通过简单的视频片段拍摄，就可以重建3D场景。按照要求对物体进行平视、俯视及仰视3个视角的360°拍摄，上传后等待几分钟，Genie1.0便可完成对视频的3D渲染。

技术方面，Luma AI可以说是将NeRF（神经辐射场）发挥到了极致。传统的NeRF需要用专业设备拍摄出大量照片，且需要严格遵循坐标位置。如今得益于底层代码开源，越来越多的简化模型被开发，所需照片和拍摄角度要求都大幅下降，Genie1.0则实现了更高一级的水平，成为了一个随时随地通过引导便可用的NeRF。

3D技术与产品的积累，帮助公司顺利的从3D生成转向了视频生成，但反过来看，视频生成也为3D创造了优质条件。在Luma AI的理念中，做视频生成产品其实是为了将3D加上时间维度更好的去做4D，视频在这里算是充当中间的角色。

我们可以将Genie1.0与Dream Machine两个产品结合起来看，前者是可以通过多角度视频搭建3D模型，后者利用3D模型的积累去更好的生成视频。且由于3D相较于图片和视频来说，数据存在局限性，想要更好的创造3D，就需要更多的大模型数据来驱动。为了达到最终的4D目标，从生成的视频中采集多视角数据，再利用这些数据去生成4D效果，一个完整的链条也就被打通了。

卷到最后出路在哪？

今年以来，AI视频生成赛道逐渐拥挤起来，尤其是互联网大厂，无论是自研模型还是对投资，都在这个领域做了一定布局。而随着入局者不断增多，一些问题也逐渐暴露，主要体现在生成视频的可控性和一致性上。

这两个问题发生时点主要都集中在视频角度切换时，如前文中提到的动物多头画面，以及在人像画面中，由于人的面部表情和细节特点变化很快且很难捕捉，在视频中切换人脸角度时，下一秒可能就出现了脸部变形、甚至不是同一张脸的情况，而这也是导致视频时长受限制的原因之一。生成视频的时间越长，保证一致性的难度就越高。

（生成视频中出现动物多头现象）

这一痛点问题也让很多开发者苦恼，虽然目前还没有完美的解决方案，但从他们的开发动作中可以看出，已经在往这个核心方向去发力。如腾讯AI实验室开发的VideoCrafter2，就是利用低质量视频来保证画面中事物运动的一致性，商汤推出的人物生成模型Vimi可精准模仿人物微表情，重点瞄准人物、可控两个方面。

从受众群体来说，AI视频生成产品目前主要还是对准C端用户，现阶段用户出于对新兴事物的可玩性与创意性去做测试，但随着产品增多，这股热潮褪去之后，更多的变现也要靠B端支撑。目前，这类产品也促使着API需求不断上升，赋予了下游企业更多可能性，无论是对生成视频的再加工还是直接使用，都让创作的时间和成本大大降低。

另外，近期快手联合博纳推出了国内首部AIGC原创短剧，也颠覆了传统影视行业的创作思路。两大新兴火热赛道的结合也让AI视频生成在应用场景上有了新的突破，更多可能性将被打开，虽然二者均处于发展初期，无论是技术还是产品都不太成熟，但迎着双风口，踩着两红利的”联名“势必会快速驱动着行业发展进程。

写在最后

AI创作产品的推陈出新给人们的生活带来了无限创意和惊喜，也为制作降低了难度和成本。从目前的产品来看，无论是文生视频还是图生视频，都打造出了很有趣新奇的玩法，其中个人的创意是驱动AI更好输出的关键因素。虽然一些技术方面的问题导致了偶尔有bug的出现，且产品形态很大程度上依赖于模型的实际能力，但通过迭代更新，市场良性竞争以及赛道间的结合，相信模型终会被训练得越来越完美。与此同时，也期待着未来国产大模型产品在全球市场闯出属于自己的一番天地。