来源丨创业邦(ID:ichuangyebang)
作者丨巴里
编辑丨关雎
又一中国版Sora登场!
日前,智谱AI正式发布视频生成大模型产品——清影(Ying)。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30秒),“清影”就能生成1440x960清晰度的高精度视频。
输入一段文字后(俗称Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段。
清华系背景的智谱AI是国内头部AI大模型独角兽公司,其背后投资方堪称豪华,包括阿里、腾讯、小米、美团、蚂蚁、红杉中国、高瓴资本等,估值已达到约30亿美元(约合217亿元人民币)。
时长6秒,免费不限量
有手机就能玩
话不多说,先拉出来遛一遛。
提示词:在霓虹灯闪烁的城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。
除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。
同时,基于“清影”的“老照片动起来”小程序也会同步上线,只需一步上传老照片,AI就能让凝练在旧时光中的照片灵动起来。
在生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。”在智谱 Open Day 上,智谱AI CEO 张鹏表示:“随着算法、数据不断迭代,相信Scaling Law将继续发挥强有力作用。”
“本次清影(Ying)底座的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。”
智谱AI方面称,即日起,所有用户均可通过智谱清言App免费体验AI文本生成视频和图像生成视频的服务,无需预约,免费用户也可以不限次数使用。
清影API也同步上线,企业和开发者都可以通过调用API的方式,体验并使用清影的文生、图生视频能力,据称这也是国内上线的首个视频生成API。
智谱“清影”与Sora
到底有何异同?
在OpenAI用Sora震惊科技业界半年后,越来越多的公司跟进了多模态。
智谱AI总裁王绍兰介绍说,智谱开发的视频生成大模型CogVideoX与Sora在技术原理上还是有一致性的,同样采用了DiT+Transformer的架构,跟随着整个文生视频的技术路线。
但是在此基础上,智谱“清影”在视频生成过程中也做了很多算法上的改进。
首先是数据层面的提升。
文生视频很重要的一点就在于要理解文字内容,并且能够对应到图像的生成上去。而目前大量的视频其实都缺少很好的文字描述。
尽管影视剧画面下方都会配有字幕,但字幕往往是剧中角色的对话,并不是对图像本身的描述。所以,从训练语料上来看,这些视频素材并不太适合做文生视频的训练。
7月12日,智谱AI刚刚开源了视频理解模型CogVLM2-Video。顾名思义,视频理解模型也就是用户发来一段视频,模型能够用文字描述出来。因此,在有了这样一个视频理解模型之后,就可以把原来大量没有被人工标注的视频变成适合做文生视频训练的素材。
实际上,智谱 AI从很早就开始部署多模态生成式AI模型,此次的清影也充分利用了之前的技术积累。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多项研究。
值得注意的是,与快手可灵视频模型不同,智谱AI作为大模型厂商并没有自己的视频数据,因此其训练数据主要有两大来源:其一是公开数据集,其二就是找到视频数据的合作伙伴,智谱AI目前拥有B站、央视频和华策影视这三家合作方。
其次是算法层面的提升。
在处理视频和语言对应训练的时候,需要将其token化,但是视频的token和语言文字的token又不一样。token化就是记号化,用独特数据符号取代敏感数据。
这其中涉及两个问题:一是视频的数据量巨大,语言实际上是对事件的抽象,但视频是非常具象的,二是视频还存在空间和时间维度的问题。
所以,智谱AI也对此进行了改进:在整个视频token化的过程中,智谱AI自研了高效三维变分自编码器结构(3D VAE),可对视频进行强力压缩,仅相当于原视频大小的2%。
在这次的训练中,智谱“清影”的算力支持来自于北京亦庄人工智能公共算力平台,经过数据压缩之后,整体的训练时间大大缩短,极大地提升了效率。
另外,所有的视频都要和内容对应起来。在内容对应的时候,文字和内容之间的对应关系还涉及时间同步的问题。
为此,智谱AI自研了一个将文本、时间、空间融合起来的transformer架构,摒弃了传统的cross attention模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。
同时,智谱AI通过expert adaptive layernorm对文本和视频两个模态进行分别处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。
与Sora仍存在差距
追求技术的可普及性和成本
智谱AI成立于2019年6月,起源于清华大学计算机系知识工程实验室。
CEO张鹏在清华大学计算机系获得本科和博士学位,研究方向为知识图谱。董事长刘德兵是中科院计算所博士,曾任清华数据科学研究院科技大数据研究中心副主任。
据睿兽分析,智谱AI至少完成了7轮融资,投资方阵容可谓豪华,包括了阿里、腾讯、小米、美团、蚂蚁集团、金山软件、红杉中国、高瓴资本、启明创投、清华控股等众多知名机构。
智谱AI融资历程
今年6月,有市场消息称,中东石油巨头沙特阿美旗下基金参与了智谱AI的投资,本轮融资额约4亿美元,投后估值达到约30亿美元(约合217亿元人民币)。智谱AI也成为第一个获得国外基金投资的国内AI独角兽。
值得注意的是,智谱AI在投资布局上也不遑多让,已经投资了十多家AI相关公司。
在应用层方面,智谱AI投资了同为“清华系”的面壁智能、生数科技,也布局了医疗、法律和文娱行业场景的大模型应用公司。
在AI基础架构层面,智谱AI投资了专注于高性能存储解决方案的焱融科技,专注算力建设的数道智算,以及“清华系”的清程极智、无问芯穹和硅基流动。
智谱AI投资事件
在视频生成赛道,已有字节、快手等大厂,也有爱诗科技、生数科技等专注于视频模型的初创公司。不过,在国内大模型独角兽公司里面,智谱AI可以说是首个推出视频生成产品的。
4月27日,智谱AI投资的生数科技发布首个文生视频模型Vidu,官方称,该模型全面对标Sora,能够生成最长为16秒的视频,分辨率1080P。6月6日,快手自研视频生成大模型“可灵”官网上线,并发布20余款根据文字提示生成的示例视频,该模型支持生成长达2分钟、帧率30fps的视频,分辨率可高达1080p,并支持自由的宽高比。
不过,Sora在今年2月发布后至今一直没有向公众开放使用;快手可灵于7月24日刚刚开放内测,需要付费最低66元(首周优惠最低33元)的月卡才能使用。
而此次,智谱“清影”发布即全量上线,无需申请、无需付费,所有C端用户都能直接体验到“清影”的AI文生视频、图生视频能力。
不过,虽然生成是完全免费的,但生成视频需要排队,智谱AI提供了两种加速排队的订阅方式,包括5元加速1天、199元加速1年。在B端,“清影”仍然会收取一定费用,标准价格为0.5元/次,也可购买不同价格和优惠的资源包。
对于视频模型的商业化,张鹏认为,现阶段,无论是To C还是To B,大规模商业化都还比较早期。
他解释道,“说实话我们也不知道商业化策略未来会怎么走、什么样的形式最好。目前所谓收费的策略更多的是一种自己的尝试,想看看市场和用户的反馈,后面根据大家的反馈及时调整。对应的成本方面,在目前刚刚上线的阶段也还无法做出统计。”
有观点称,视频模型势必将对影视行业造成直接冲击。
张鹏也对此回应道,现有的AI视频生成技术无法彻底替代影视行业,更多是辅助的作用,但AI对于影视行业的变化是有积极意义的。目前来讲,把AI直接用在面向观众的影视生产过程当中可能还是不太够,最多是做小规模的创作。
他表示,“如果AI真正要完成电影制作等更高要求的任务,可能还得要有一段路去走。”
对于OpenAI的视频模型Sora,张鹏也承认与世界顶级水平之间存在的差距。
“清影现在还只是一个初步的阶段性成果,还达不到像Sora演示出来那么好、生成那么长的视频,还需要更多的努力。我们在不断用自己的方式往前追赶,怎么把视频生成算力成本降下来,响应速度提升上去,让技术人人可用。”
他最后表示,我们在追求技术高度的同时,也同时追求技术的可普及性和成本,这也是我们团队的特点。