AI视频神仙打架，BAT跟不跟？

作者：市界发布时间：2023-12-14

谷歌 AI大模型

继发布最新AI大模型“Genmini”仅一星期后，谷歌又公布了自己的最新AI研究成果。

12月12日，谷歌宣布，其与全球顶级计算机视觉专家、华裔AI教母李飞飞及其学生团队合作，推出了AI视频生成模型“W.A.L.T（全称为Window Attention Latent Transformer）”。

与前段时间刷屏全网、A股信雅达董事长女儿创业研发的PIKA 1.0类似，W.A.L.T也是一款AI视频生成模型。

此前在12月6日晚间，谷歌曾发布其最新一代的多模态AI大模型Gemini，并同步发布了演示视频。

但Gemini发布后不久，即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此，谷歌也一度陷入“造假”指控中。

仅仅6天过去，谷歌又通过发布W.A.L.T瞄准了AI视频生成，这也是如今AI应用落地最为火热的领域之一。

携手华裔AI女神，谷歌抢滩AI文生视频

与此前走红的Pika 1.0类似，W.A.L.T同样支持文生视频、图片生成视频、3D视频生成等功能。

而视频效果方面，根据演示视频及论文，W.A.L.T可以通过自然语言提示，生成3秒长的每秒8帧、分辨率为512x896的视频。

▲（图源/W.A.L.T）

产业人士“歸藏”公开评价称，W.A.L.T的效果“比Pika 1.0还要好得多，清晰度和动作都非常好”。

有趣的是，Pika的创始人、信雅达董事长的女儿郭文景，其实与李飞飞颇有渊源。

在退学创业之前，郭文景曾在斯坦福大学AI实验室（NLP&图形学方向）攻读博士学位，而李飞飞则是斯坦福大学首位红杉讲席教授，亦曾在斯坦福大学AI实验室中任职。

与后起之秀郭文景相比，李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗，也是包括谷歌在内、全球科技大厂争夺的人才资源。

根据公开信息，1976年，李飞飞出生于北京，并在成都长大。1992年，16岁的李飞飞随父母远赴美国定居，并在三年后进入普林斯顿大学攻读物理学。

在之后的求学生涯之中，李飞飞一步步确立了对于AI的研究兴趣，并将研究重点转移至彼时十分冷门的计算机视觉领域。2007年，李飞飞在经费短缺的情况下，开始了自己的首个项目ImageNet（教机器识别图像的数据集）。

当时，AI图像识别模型仅能认出四种物体：汽车、飞机、豹子、人脸，因为以往研究者一般只会针对这四类物体进行模型训练。想让AI认识一种物体，需要人工先在图片中标记出目标物，再将大量这样的图片“喂”给AI进行训练。

而李飞飞的设想是，如果有一个足够大的、经过标注的数据集，就能训练出理论上“无所不知”的计算机视觉模型。

2009年，ImageNet正式发布，很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此“一战成名”，拥有了“华人AI教母”等头衔。至今，ImageNet仍是全球AI产学界最知名的大型视觉数据库之一。

无论是一周内连发两大模型，还是与李飞飞团队的合作，都说明谷歌在多模态AI模型研发方面正铆足了劲。

AI视频“神仙打架”，国内玩家怎么看？

在刚刚过去的一段时间内，AI视频生成赛道十分热闹。除了Pika 1.0、W.A.L.T，有不少AI视频生成工具密集涌现出来或进行了功能更新。

举例而言，11月初，美国生成式AI独角兽企业Runway对其自研视频生成模型Gen-2进行了功能更新，着力提升生成结果的保真度和一致性。

11月中旬，以社交产品起家的科技大厂Meta发布了Emu Video模型。

11月末，美国文生图片创企Stability AI推出了名为Stable Video Diffusion的视频生成模型，提供SVD和SVD-XT两个模型。

▲（图源/W.A.L.T）

而国内方面，字节跳动、阿里、百度等科技大厂均已跑步入场。

其中字节跳动于11月18日推出了文生视频模型PixelDance，提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性更强。

紧随其后，阿里上线了Animate Anyone模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作（或姿势序列），就能得到该角色的动画视频。

根据此前的公开信息，百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。

国内外玩家的积极下场，在某种程度上说明AI视频生成赛道将成为这一轮AI技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向，英伟达高级研究科学家、曾在OpenAI工作过的Jim Fan就在社交媒体上写道：“2022年是图像之年，2023是声波之年，2024（将是）视频之年！”

中信证券研报则指出：“参考文生图在广告领域的应用，文生视频同样有望推动生产力革命，降低生产成本、创作门槛，促使AIGC技术产业化进程加速。我们认为从能力的角度出发，文生视频有望率先在短视频和动漫两个领域落地。”

不过，技术革新的另一面，则是对现有业态的冲击。

在国内一家视频创作工具企业工作的Leo告诉「市界」：“今年早些时候我们一直认为AIGC主要还是作用在图文创作领域，但距离满足商业视频要求还要经过一两年的时间。”他补充道，这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。

而现在看来，视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下，现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的，可能是被时代抛弃的结局。

作者 | 董温淑

编辑 | 董雨晴

运营 | 刘珊

近期资讯

AI视频神仙打架，BAT跟不跟？

推荐体验

相关资讯

视频生成模型神仙打架？我们要怎么选？

【AIGC】神仙打架：阿里推出视频模型AtomoVideo，直刚Sora ，究竟谁更强

神仙打架！谷歌和OpenAI竞相推出多模式AI

国产AI大模型“神仙打架”“百模大战”迎来监管

本周大事件可能有点多，可称为“AI神仙打架周”

近期资讯

为什么医药行业要选择不锈钢导热油电加热炉？科恩机械电加热器

双边大跨距桥架多少米一个桥

【岳信仪器】桌面式气密性检漏机：从原理到操作，一文读懂

梯架式桥架横档方向是什么

高中三年数学知识点都在这啦（可打印哦）

家电类产品线触摸系列（6）中微CMS80F761x

梯架式桥架的折弯原理

高中数学这52种解题技巧，随便一条都是解题关键，快看

【科普】【数据删除】什么是模因？——模因与逆模因入门

成套导热油加热器的高效应用淮宇供热电加热器

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响