记者丨何己派 编辑丨鄢子为
谁能做成中国版Sora?
意想不到,选项里出现了快手这家公司。
快手推出的文生视频大模型“可灵”,引发科技圈关注,截至7月5日,已有累计超过55万人排队申请。
可灵主打图生视频功能,支持用任意静态图像生成5s视频,并可为已生成的视频提供续写,延长视频至约3分钟。
“至少不像Sora是‘期货’。”有AI开发者如此评价。
“这个产品在我们今天能使用的范畴内,就是全世界第一,这也是国产人工智能领域的又一项重大突破。”猎豹移动董事长兼CEO傅盛公开站台。
3个多月前,快手创始人兼CEO程一笑放出豪言,有信心半年内追上GPT-4的水平。
此前,快手先后发布通用大语言模型“快意”、文生图大模型产品“可图”,反响平平。
眼下,程一笑打出了最得意的一张牌。
对标Sora
一句话描述“可灵”,它是首个面向用户开放的、Sora级文生视频大模型。
7月4日,在2024世界人工智能大会上,快手视觉生成与互动中心负责人万鹏飞提到,可灵与其他文生视频大模型相比,最大的差异化在于已经面向用户使用,目前大家普遍反馈比较正向。
万鹏飞
可灵开放测试后,火爆异常,排队申请的人数,几天内便破万。
基于新发布的图生视频功能,用户上传一张照片,可灵会变静为动,赋予其5秒的生命力。同时,上传的图片可搭配不同的文本指令,令细节处理更符合预期。
例如,使用一张小猫的照片生成视频,猫的眼睛会转,耳朵轻轻耸动,呈现live效果。
其文生视频提示词的编辑框,初发布时限制200个字符,此次更新后,升级为500个字符。同时,允许用户自由调节视频的纵横比。
目前可灵每次允许生成5秒视频,记者注意到,后台处理时间有所延长,从之前的3分钟拉长到4分钟。
作为对比,据猜测,Sora生成1分钟视频的时间,超过1个小时。
记者输入“一只橘猫驾驶跑车,穿梭在都市街道”的提示词,可灵生成的视频精美,跑车行进途中,玻璃上倒映的路旁树影随之变换,细节处理得到位。
一个大bug,是橘猫的身体连同方向盘,伸出了挡风玻璃外。路两侧本该行进的车辆,都是静止状态。
可灵也能识别英文词汇,根据“Superman骑着扫帚,路过月球,穿梭在宇宙”提示词,生成偏动画风格的视频,出现了超人的背影。
在远距离镜头里,可灵生成的人物、动物全身像,面部模糊
一位AI创作者使用了两天可灵,他推测,快手使用了机器打标,提示词对镜头运动的服从性较差;对动物的服从性较好,以动物为主角的片子,效果可能较好。
总体而言,“可灵在某些镜头的表现,已经达到商用级别。”
许多AI创作者,以同样的提示词,对比了可灵与Sora的效果。“真人吃面条”的对比,尤为出圈,可灵更胜一筹。
“‘吃面条’这个case其实很难。手要以某种姿势抓着筷子,筷子要把面夹起来,面得抖动,人要张大嘴,把面吃进去咀嚼咬断,嘴上要沾着油光,实现起来,挑战很多。”万鹏飞表示。
此次升级还有一大亮点,集成文本控制机制于视频续写中,令用户能通过自定义提示词,为每段视频续写。
比如,一个关于古堡的视频片段,用户可以选择让它先“太阳落下去,天空变暗”,继而“太阳升起来,天空变亮”,也可以“太阳落下去,天空变暗,灯光渐亮”,随后“灯光亮起,雾气氤氲”。
排兵布阵
码农出身的程一笑,关注AI多年。
他同快手联合创始人宿华初次见面时,二人就围绕机器学习和人工智能的应用,聊了许久。
眼看大模型火热,程一笑火速排兵布阵。
程一笑
去年初,快手启动新的AI战略,组建大模型研发团队,点将技术副总裁张迪,担任负责人,聚焦大语言模型、视觉生成模型、多模态模型等方向。
视觉生成与互动中心(VGI),其负责人是带队从0到1研发可灵的万鹏飞,向张迪汇报。
万鹏飞曾是快手Y-tech AI技术中心负责人,牵头主导了数字人系列解决方案,如关小芳IP、快手智播平台等。
他在计算机视觉领域经验丰富,博士毕业于中国香港科技大学ECE系,本科毕业于中国科学技术大学EEIS系,曾是美图影像研究院负责人。
有人上,有人下。
年初,38岁的快手VP王仲远离职。
王仲远
他供职快手3年多,负责多媒体内容理解部,是快手AI团队核心人物,离开快手后,转身出任北京智源研究院院长。
6月14日的智源大会上,王仲远点评曾经的老部下称,“整个团队在万鹏飞的带领下,推动了快手特效及人像美化技术的智能化升级。”
快手还在持续吸纳新鲜血液。
例如,VGI的专家研究员王鑫涛,于今年入职快手,参与可灵的研发。
他的上一份工作在腾讯,做视觉生成(图像、视频、3D)相关的研究工作。
抢人工具
文生视频大模型,其参数规模和所需的算力,是备受关注的一环。
有业内人士研究,Sora的训练算力需求不高,仅是GPT-4的四分之一,但推理算力需求能达到GPT-4的1000倍以上。
Sora生成一个一分钟左右视频,大约需要8张A100跑至少3个小时。
快手称,可灵能生成的视频时长,最高可达2分钟(帧率30fps)。
计算效率这块,可灵并没有采用当前行业主流的DDPM方案,而是使用了传输路径更短的flow模型,作为扩散模型基座。
万鹏飞对可灵的参数规模、训练用卡规模,三缄其口,表示“不便透露”。
他亦强调,可灵是“非常复杂、重资源投入、多边协作的项目”。
重注文生视频的程一笑团队,意在争夺更多内容创作者。
抖音、快手、视频号,围绕中国优质创作者的“抢人大战”,从未停歇。AI工具的迭代,有望加速内容创作从图文朝视频迁移。
“(文生视频)对短视频生态来说,是巨大的机会。未来,快手会把生成模型和生产者工具结合起来,帮助创作者降低创作门槛,提升短视频制作质量和效率。”程一笑表示。
在万鹏飞看来,当视频生成的效果接近拍摄时,将对行业带来新挑战和新机遇,同时,未来视频创作者和消费者的界限,会逐渐模糊。
《21CBR》记者注意到,7月初,快手在快影的AI生视频功能模块,发布了内测须知。
该文件显示,AI生视频服务在当前内测阶段限时免费,限时免费阶段暂推定为30个自然日。此外,“最终产品服务的上线时间,有待进一步确定。”
可以预见的是,可灵的更大动作,尚在酝酿。