AI 视频的多主体一致性,向来是个难题。让 AI 凭空生成模特和衣服不难,但如果甲方要求,必须要让马斯克代言,穿上毛绒大衣,AI 可能就办不到了。
Pika 最近更新的 2.0 模型,提出了一种很有趣的解决方式——我们上传多张图片,Pika 会精准参考图片中的元素,生成视频。
集齐人物、商品、场景的照片,一个非常基础的广告片就出炉了,而且这些素材在视频里长得都和照片里一样。
这是否意味着,AI 视频的一致性难题解决了,广告行业的朋友们又要焦虑了?其实并没有,经过实测,Pika 的可玩性很高,但论实用,道行还不够。
Pika 上传多张参考图片的功能,叫作「Scene Ingredients」(场景成分)。
使用起来很简单:1. 点击「+」上传图片,上限 6 张;2.在文本框里,写上简单的提示词。
接下来就进入实操—— 让闹得水深火热的马斯克和奥特曼,化干戈为玉帛,在一起看电影。
提示词:两个人坐在漆黑的观众席中。他们手捧一桶爆米花,一把放到嘴里嚼着,全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷,仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤,但焦点仍然集中在他们的反应上
上传两位的照片就够了,观众席可以用提示词写出来。
对于马斯克,AI 的发挥很稳定。但奥特曼看起来是地主家的傻儿子,吃相恐怖就不说了,眼睛大得要掉出来。
Pika 很有趣的一点是,素材可以「复用」。
所以,我们可以让马斯克和奥特曼过把模特瘾。只上传一张服装图片,然后通过提示词,让他们穿着一样的绿色大衣,拍个时尚大片。
提示词:两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照,从头到脚展现他们。他们摆出专业模特般的姿势,脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格,专业相机品质,时尚杂志美学
两人的照片都找了现成的,绿色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考验 Pika 的附加题。
结果,场景和大衣的一致性保持得不错,「AIGC」的字样依稀可以辨认,两位模特的动作也遵循了提示词。
但最大的问题是,这两人是谁?视频的人脸和照片,不能说一模一样,可以说是毫不相干。
不信邪,继续让 Pika 玩换装。
这次,我们请出扎克伯格,照例先用 AI 图片工具生成衣服,上面写着「I was human」(我曾是人类),呼应经典的机器人梗。
然后,再找一张扎克伯格的图片,和一把尤克里里的图片,让小扎玩个音乐。
提示词:一位身穿黑色 T 恤的男子站在温馨的房间里,弹奏着尤克里里琴。镜头从中远景开始,展现他的整个身体,逐渐拉近,最后聚焦在 T 恤上的字迹上
Pika 对提示词的遵循和镜头的运动都挺好,衣服也丝滑地穿上了,但右手,尤其大拇指,还是不完美。
相较 Google Veo、OpenAI Sora 等,Pika 的模型能力不算顶尖,一个问题解决了,还有更多的 bug 被发现。
尝试了写实的,再来试试二次元画风,为了让坂田银时和漩涡鸣人同框,我特意挑选了两张背景都是蓝天白云的图片。
提示词:动漫风格的场景,镜头聚焦在两个年轻男子的脸上,背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流,保留了原有的动漫艺术风格
背景融合得很自然,两位正面的表情发挥不错,吹动头发和衣服的风也恰到好处。然而,转身实在太可怕了。银时是死鱼眼,不是真的翻白眼啊喂。
次元壁都打破了,当然也可以让名画跨年代互动——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。
提示词:蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐,桌上摆着薯条。她们边聊天边品尝薯条,摄像机从侧面捕捉她们,两位角色偶尔看向镜头,营造出一种随意而友好的氛围
效果一言难尽,看到蒙娜丽莎,不知道达芬奇想不想掀棺材板。两位好像贴图一样,被放在了视频里,头部也运动得非常诡异。
有时候,回归简单,道法自然,结果反而超出预期。
提示词:特写镜头,池塘表面出现气泡,然后咖啡杯从水中浮出
上传一张星巴克的图片,一幅莫奈的睡莲,就可以得到一个「清水出芙蓉」的咖啡杯。
一定程度上,Pika 提高了视频的可控性。话不说满,因为从实践看来,Pika 在场景、服装、物品上的一致性保持地较好,人物的脸容易崩,不管是什么次元。
同时,模型的基础能力,Pika 也有待进步,吃东西、弹琴等物体运动,仍然会出现问题。这些问题,能不能通过抽卡缓解呢?
三个字:抽不起。
Pika 2.0 目前仅对 Pro 和 Fancy 用户开放,如果按月订阅,每月至少花 35 美元,连免费试用的额度都没有。
而且,Pro 用户每月只有 2000 积分,但使用 Scene Ingredients 功能,一个视频就要花掉 100 积分。
vidu 界面
其实,国产 AI 视频模型 Vidu,比 Pika 更早地实现了「多图参考」的功能。更拿捏用户的是,它有免费体验的积分。
Pika 的几个案例,我也在 Vidu 跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条,两位像刚出土,但蒙娜丽莎的还原度比 Pika 高。
马斯克和奥特曼一起看电影,马斯克的脸像了七八成,奥特曼的脸依旧灾难。
坂田银时和漩涡鸣人同框,Vidu 居然能基于正脸生成侧脸,但画风和原图不太一样。
另外,在功能上,Vidu 有一点不如 Pika——最多只能上传三张图片。所以,让 Vidu 给马斯克和奥特曼拍时尚大片,我就没有上传背景,只上传了两位的照片和绿色的大衣。
两位给人的感觉很陌生。可以看出,人脸的稳定性,仍然是个难题。
和 Pika 相比,Vidu 效果如何,可以见仁见智。Pika 用的是 Pro 版,Vidu 用的是免费版,客观上也会导致两者的差异。
但 Pika 和 Vidu 的思路是相似的——仅靠几个图片素材、一段简单的提示词,就生成相对稳定的物体。
在 AI 视频生成中,保持主体一致性,目前相对可靠的是 LoRA 方案,用一定数量的、特定主体的素材,对模型进行微调。通过适量的素材和训练,模型能逐渐掌握这个角色的样貌特征。
但为了让 AI 视频被更多人用起来,有更广阔的商业价值,门槛就要降低。至少,从 Vidu 和 Pika 身上,我们看到了可能性。
Pika 的 2.0 模型发了没几天,海外网友已经玩疯了。
拿自己的照片,反复生成不同场景的视频,就可以实现「瞬息全宇宙」。
图片来自:X@EladRichardson
通过 AI 一键试衣,模特和衣服如流水,场景都不带换的,实拍的钱省下来了。
图片来自:X@martgent
玩着玩着,Pika 给了我一种玩「QQ 秀」和模拟人生的感觉,怎么打扮视频里的角色,我们来决定。
如果让马斯克「圆梦」,很容易,先用其他 AI 工具,生成了一件「占领火星」的 T 恤、一个写着「MAGA」的红色帽子。
然后,把这些图片、火星的场景、马斯克的照片,以及他的擎天柱人形机器人、他特别喜欢的网红表情包 Doge 原型,全部上传到 Pika。
提示词:一名男子站在火星表面,身穿黑色T恤,头戴红色帽子。他的左边坐着一只狗,右边站着一个机器人。镜头以广角镜头开始,捕捉男子、狗、机器人的全身。随着镜头平稳拉近,男子朝镜头欢快地挥手,表情洋溢着喜悦和冒险精神
最终,一个阳光开朗大男孩出现,左牵黄,右擎苍,憨厚有余,但就是不像马斯克。
像不像是一回事,只要思路开阔,玩法无穷无尽。
基于我们自己和名人的照片,可以无痛追星。上传帽子、衣服、乐器,能把自己从头打扮到脚。集齐场景、产品、模特,一个 5 毛特效的广告片子就有了......
照片+AI 图片+Pika 2.0+提示词,可以生成很多好玩的画面。同时,这样的生成方式也规避了一些视频模型的短板,比如写字,在图片模型就可以解决。
不和 Google 硬刚模型能力,不和 Runway 这种逐梦好莱坞的对手比较,Pika 有自己的弯道超车玩法。
其实一直以来,Pika 在整活和创意方面就是一把好手,之前的一系列 AI 特效功能 Pikaffect 全网爆火,刷屏小红书和 TikTok,推动 Pika 用户突破 1100 万。
AI 捏捏. 图片来自:Pika
AI 切蛋糕. 图片来自:Pika
Pika 切中了一群对整活短视频有高需求的用户,哪怕这些视频是模板化的,稍纵即逝的,但只要有趣,人们就会蜂拥而至。
谁说赢者通吃才是胜利?AI 的市场是广阔的,模拟物理世界固然是个远大的梦想,先完成让 AI 短视频有趣起来的小目标,未尝不是一种成功的方式 。
本文来自微信公众号“APPSO”,作者:APPSO,36氪经授权发布。