当前位置:首页|资讯

“杜甫很忙”梗图变视频!智谱AI生成视频模型上线

作者:南方都市报发布时间:2024-07-26

7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到,应用清影生成6秒视频只需要30秒的时间,该功能不仅支持文生视频、图生视频,也支持视频生成视频(以下是利用网络梗应用清影生成的视频 )。

2024年过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁蒋杰率先透露,腾讯混元大模型本身正在积极部署多模态甚至全模态技术。本月除了腾讯与智谱,快手视频生成大模型可灵AI也宣布基础模型再次升级,并全面开放内测。

南都记者体验发现,目前清影大模型所有C端用户皆可免费使用清影的文生视频和图生视频功能,不过用户在体验时可能需要排队等待。但用户可以选择以充值的方式来加速,目前24小时内加速价格为5元,1年内使用加速功能为199元。

张鹏在发布会现场表示,在此次生成式视频模型的研发中,坚信大模型最终性能主要与计算量、模型参数量和训练数据量相关的Scaling Law定律,继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。随着算法、数据不断迭代,我们也相信Scaling Law将继续发挥强大威力。”张鹏表示。

据介绍,此次发布的清影(Ying)底座的视频生成模型是CogVideoX,该模型能将文本、时间、空间三个维度融合起来,与Sora采用了相同的DiT架构。同时通过优化,CogVideoX推理速度提升了6倍。理论上,模型侧生成6秒视频仅需30秒时间。

同时,智谱还自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述。这意味着,即使你在使用视频生成模型时给模型下了非常复杂的“咒语”,模型依然可以理解你的prompt指令。

目前,清影(Ying)API 也同步上线大模型开放平台bigmodel.cn,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。C端用户则能通过清影(Ying)免费体验到AI文生视频、图生视频能力。

2024年过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。除了文生图以外,文生视频也正在朝着更高分辨率、更长时长、更精细的方向发展。

就在本月初的世界人工智能大会上,腾讯集团副总裁蒋杰率先披露,腾讯混元大模型本身正在积极部署多模态甚至全模态技术。本月除了腾讯与智谱,快手视频生成大模型可灵AI也宣布基础模型再次升级,并全面开放内测。

不过,对于多模态大模型的发展现状,近期宇树科技创始人及CEO王兴兴就在世界人工智能大会上表示,目前大语言模型、多模态模型仍难以实现对整个世界的理解,对时间、空间和物理定律的理解还“非常糟糕”。对于多模态模型的发展,张鹏在发布会现场也表示,目前多模态确实还处于非常初级的探索阶段,智谱还将不断探索。

采写:南都记者 林文琪


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1