一个月内三次重大升级快手可灵大模型实现让AI技术创造更多价值

作者：央广网发布时间：2024-07-13

视频拍摄制作一直以来都是有一定专业性要求的技能，而如今，在新技术的推动下，这一印象有望被重塑。通过大模型，用户只需输入文字或者图片，就能自动生成一段高清视频，它还可以不断延长视频的长度，最长能达到3分钟。

这并非天方夜谭。国产视频大模型快手“可灵”已于日前正式推出，作为首个Sora级面向用户开放的文生视频大模型，可灵一经发布便引发了国内外持续的高度关注。在刚刚落幕的2024世界人工智能大会上，继图生视频、视频续写功能发布之后，可灵在一个月内迎来了第三次重大升级，网页端也正式上线，让这款大模型的话题感再度拉满。

业内人士向央广网表示，目前各行业的大模型产品数量已经超200个，而且呈现持续增加的态势。如何在繁多的大模型中脱颖而出，是对各家技术沉淀和和综合实力的考验。

图文生视频有何难？做到符合物理规律决定了模型上限

台上一分钟，台下十年功，这句俗语用在视频大模型行业来说恰如其分，从视频大模型的推出整体晚于图文生成大模型也可见一斑。2月15日，美国人工智能研究公司OpenAI正式发布了旗下首个文生视频模型Sora，此后这个领域才更多呈现在普通用户面前。

相关视频大模型从业者表示，自Sora以来，各家视频生成模型都非常注重生成符合物理规律的视频，这决定了模型能力的上限。记者在测试过程中也发现，不管是还原现实生活场景还是天马行空的想象场景，可灵在动作还原上都较为流畅真实。

（蒙娜丽莎戴眼镜动图）

如何做到这一点？快手大模型团队表示，可灵具有大幅度且合理的运动生成能力。通过建模复杂的时空运动，可灵可以生成较大幅度的运动，并符合运动规律。

本次WAIC可灵宣布的高画质版、首尾帧控制和相机镜头控制功能，分别是可灵AI在电影级高清画面生成、领先图生视频效果和优秀视频生成可控性三大能力上的进一步演化。此外，在更充分模型训练的加持下，可灵AI在运动生成、生成时长、物理规律、指令响应等其他四大能力上也进一步升级。

值得一提的是，快手核心的基础模型，以及底层的IDC算力中心、网络架构AI平台，都是快手自研。为了支持大模型的训练和推理，快手建立了一个万亿参数规模的大模型训练及推理基础设施。这个基础设施为大模型提供了必要的计算能力和存储资源，确保了模型的高效运行和持续优化。

商业落地成效初显，用AI技术创造更多价值

与很多大模型的商业路径还在探索阶段不同，快手大模型的商业落地路径清晰，且已经初显成效。身处短视频领域第一梯队，快手视频生成大模型有更加天然、广泛的应用场景。

据了解，目前快手使用大模型，在广告领域里面进行构建了视频脚本生成，直播实时脚本生成，广告线索的克服技术等。叠加数字技术，能够助力商业化广告主低成本的生成高品质短视频和直播。

数据显示，快手的AIGC的广告消耗从1月份几乎可以忽略不计，到6月份快速增长，现在月度日均值消耗将近2000万每天，峰值日消耗远远超过2000万。

快手商业化外循环和AI商业产品负责人刘逍透露，半年来，有近2万商家在快手平台借助大模型能力实现智能化经营，获得不菲回报。相比今年1月，今年6月的AIGC月活跃客户数增长了8倍，月GMV规模提升了64倍，平台AIGC广告收入规模提升了12倍。刘逍表示，磁力开创、女娲数字人、π数字员工等“新生意”工具将持续为商家深度赋能，“我们将继续深化AI技术在商业化中的应用，不断创新和发展，为客户创造更多价值。”

技术积累加上商业化前景明朗，让可灵大模型的每一步动向都引发强烈关注。快手高级副总裁、主站业务与社区科学线负责人盖坤表示，一直以来，AI技术创新都是推动快手发展的驱动力，不仅覆盖内容生产、理解、推荐等多个层面，也持续推进着快手商业生态的智能化经营水平。快手未来将继续加大在AI领域的投入，大力推动技术创新，“坚定地为用户做最好的AI技术”。