快手程一笑，悄悄上线中国版Sora

作者：21世纪商业评论发布时间：2024-07-06

快手程一笑，悄悄上线中国版Sora

21世纪商业评论

2024-07-06 18:39发布于广东21世纪商业评论官方账号

全文2155字，阅读约需7分钟，帮我划重点

划重点

01快手推出文生视频大模型“可灵”，主打图生视频功能，支持用任意静态图像生成5s视频，并可为已生成的视频提供续写，延长视频至约3分钟。

02可灵与其他文生视频大模型相比，最大的差异化在于已经面向用户使用，目前大家普遍反馈比较正向。

03由于此，可灵开放测试后，火爆异常，排队申请的人数，几天内便破万。

04然而，可灵在某些镜头的表现，已经达到商用级别，但与Sora相比，仍有差距。

05快手表示，未来会把生成模型和生产者工具结合起来，帮助创作者降低创作门槛，提升短视频制作质量和效率。

由腾讯混元大模型提供技术支持

记者丨何己派编辑丨鄢子为

谁能做成中国版Sora？

意想不到，选项里出现了快手这家公司。

快手推出的文生视频大模型“可灵”，引发科技圈关注，截至7月5日，已有累计超过55万人排队申请。

可灵主打图生视频功能，支持用任意静态图像生成5s视频，并可为已生成的视频提供续写，延长视频至约3分钟。

“至少不像Sora是‘期货’。”有AI开发者如此评价。

“这个产品在我们今天能使用的范畴内，就是全世界第一，这也是国产人工智能领域的又一项重大突破。”猎豹移动董事长兼CEO傅盛公开站台。

3个多月前，快手创始人兼CEO程一笑放出豪言，有信心半年内追上GPT-4的水平。

此前，快手先后发布通用大语言模型“快意”、文生图大模型产品“可图”，反响平平。

眼下，程一笑打出了最得意的一张牌。

对标Sora

一句话描述“可灵”，它是首个面向用户开放的、Sora级文生视频大模型。

7月4日，在2024世界人工智能大会上，快手视觉生成与互动中心负责人万鹏飞提到，可灵与其他文生视频大模型相比，最大的差异化在于已经面向用户使用，目前大家普遍反馈比较正向。

万鹏飞

可灵开放测试后，火爆异常，排队申请的人数，几天内便破万。

基于新发布的图生视频功能，用户上传一张照片，可灵会变静为动，赋予其5秒的生命力。同时，上传的图片可搭配不同的文本指令，令细节处理更符合预期。

例如，使用一张小猫的照片生成视频，猫的眼睛会转，耳朵轻轻耸动，呈现live效果。

其文生视频提示词的编辑框，初发布时限制200个字符，此次更新后，升级为500个字符。同时，允许用户自由调节视频的纵横比。

目前可灵每次允许生成5秒视频，记者注意到，后台处理时间有所延长，从之前的3分钟拉长到4分钟。

作为对比，据猜测，Sora生成1分钟视频的时间，超过1个小时。

记者输入“一只橘猫驾驶跑车，穿梭在都市街道”的提示词，可灵生成的视频精美，跑车行进途中，玻璃上倒映的路旁树影随之变换，细节处理得到位。

一个大bug，是橘猫的身体连同方向盘，伸出了挡风玻璃外。路两侧本该行进的车辆，都是静止状态。

可灵也能识别英文词汇，根据“Superman骑着扫帚，路过月球，穿梭在宇宙”提示词，生成偏动画风格的视频，出现了超人的背影。

在远距离镜头里，可灵生成的人物、动物全身像，面部模糊

一位AI创作者使用了两天可灵，他推测，快手使用了机器打标，提示词对镜头运动的服从性较差；对动物的服从性较好，以动物为主角的片子，效果可能较好。

总体而言，“可灵在某些镜头的表现，已经达到商用级别。”

许多AI创作者，以同样的提示词，对比了可灵与Sora的效果。“真人吃面条”的对比，尤为出圈，可灵更胜一筹。

“‘吃面条’这个case其实很难。手要以某种姿势抓着筷子，筷子要把面夹起来，面得抖动，人要张大嘴，把面吃进去咀嚼咬断，嘴上要沾着油光，实现起来，挑战很多。”万鹏飞表示。

此次升级还有一大亮点，集成文本控制机制于视频续写中，令用户能通过自定义提示词，为每段视频续写。

比如，一个关于古堡的视频片段，用户可以选择让它先“太阳落下去，天空变暗”，继而“太阳升起来，天空变亮”，也可以“太阳落下去，天空变暗，灯光渐亮”，随后“灯光亮起，雾气氤氲”。

排兵布阵

码农出身的程一笑，关注AI多年。

他同快手联合创始人宿华初次见面时，二人就围绕机器学习和人工智能的应用，聊了许久。

眼看大模型火热，程一笑火速排兵布阵。

程一笑

去年初，快手启动新的AI战略，组建大模型研发团队，点将技术副总裁张迪，担任负责人，聚焦大语言模型、视觉生成模型、多模态模型等方向。

视觉生成与互动中心（VGI），其负责人是带队从0到1研发可灵的万鹏飞，向张迪汇报。

万鹏飞曾是快手Y-tech AI技术中心负责人，牵头主导了数字人系列解决方案，如关小芳IP、快手智播平台等。

他在计算机视觉领域经验丰富，博士毕业于中国香港科技大学ECE系，本科毕业于中国科学技术大学EEIS系，曾是美图影像研究院负责人。

有人上，有人下。

年初，38岁的快手VP王仲远离职。

王仲远

他供职快手3年多，负责多媒体内容理解部，是快手AI团队核心人物，离开快手后，转身出任北京智源研究院院长。

6月14日的智源大会上，王仲远点评曾经的老部下称，“整个团队在万鹏飞的带领下，推动了快手特效及人像美化技术的智能化升级。”

快手还在持续吸纳新鲜血液。

例如，VGI的专家研究员王鑫涛，于今年入职快手，参与可灵的研发。

他的上一份工作在腾讯，做视觉生成（图像、视频、3D）相关的研究工作。

抢人工具

文生视频大模型，其参数规模和所需的算力，是备受关注的一环。

有业内人士研究，Sora的训练算力需求不高，仅是GPT-4的四分之一，但推理算力需求能达到GPT-4的1000倍以上。

Sora生成一个一分钟左右视频，大约需要8张A100跑至少3个小时。

快手称，可灵能生成的视频时长，最高可达2分钟（帧率30fps）。

计算效率这块，可灵并没有采用当前行业主流的DDPM方案，而是使用了传输路径更短的flow模型，作为扩散模型基座。

万鹏飞对可灵的参数规模、训练用卡规模，三缄其口，表示“不便透露”。

他亦强调，可灵是“非常复杂、重资源投入、多边协作的项目”。

重注文生视频的程一笑团队，意在争夺更多内容创作者。

抖音、快手、视频号，围绕中国优质创作者的“抢人大战”，从未停歇。AI工具的迭代，有望加速内容创作从图文朝视频迁移。

“（文生视频）对短视频生态来说，是巨大的机会。未来，快手会把生成模型和生产者工具结合起来，帮助创作者降低创作门槛，提升短视频制作质量和效率。”程一笑表示。

在万鹏飞看来，当视频生成的效果接近拍摄时，将对行业带来新挑战和新机遇，同时，未来视频创作者和消费者的界限，会逐渐模糊。

《21CBR》记者注意到，7月初，快手在快影的AI生视频功能模块，发布了内测须知。

该文件显示，AI生视频服务在当前内测阶段限时免费，限时免费阶段暂推定为30个自然日。此外，“最终产品服务的上线时间，有待进一步确定。”

可以预见的是，可灵的更大动作，尚在酝酿。

查看原图 455K

快手程一笑，悄悄上线中国版Sora

快手程一笑，悄悄上线中国版Sora

推荐体验

相关资讯

快手CEO 程一笑：将长期投入生成式AI

揭秘“中国版Sora”可灵：程一笑督战，20人团队三个月完成

快手程一笑：已经组建大模型研发团队，暂时没有明确对外发布计划

快手程一笑：“可灵AI”力争尽快实现可观的商业化变现

快手程一笑：已组建大模型研发团队，当前模型处于训练阶段暂无发布计划

近期资讯

传祺M8宗师超级混动版与丰田格瑞维亚对比：豪华MPV间的较量

统一钛粒王 T7 如同一盏明灯，照亮汽车行业低碳发展道路

AI 自动直播：会是直播行业即将刮起的强劲新风口吗？

奇瑞风云A8L C-DM上市搭载的插混系统与荣威D7 DMH相比谁更强？

郑州重卡盘式碟刹刹车盘省内直发物流直达

专项报告 | 新能源汽车营销月报11月

金标大众破局起势，走出智能电动时代新“大众路”丨汽势封面

统一股份：携手共赢，2024年度分红再创新高

统一可持续发展大会，朱国勇揭秘2025商业新趋势

旋转式升降立体车库翻新厂家全指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响