在AI文生视频这条热门赛道,抖音旗下的剪映,正在被OpenAI的Sora越甩越远。
近日,美国软件巨头Adobe宣布,将在知名视频编辑软件Premiere Pro的新版本添加多款文生视频AI工具。近两个月震动全球科技圈的Sora,以及两款同类产品Gen-2和Pika,都会在不久的将来加入“Adobe全家桶”。
有了Sora等第三方AI工具的助力,新版Premiere Pro除了编辑处理预先拍摄的常规视频外,还能根据用户输入的文本即时生成AI视频,并将两者融为一体。
Adobe放出了一条官方演示视频:一个男人走向窗前,观看整个城市的夜景。用户无需拍摄实景,只需输入一段文字,即可利用Sora生成一段城市雨夜的视频,并与前面的视频无缝衔接,效果几可乱真。
Sora今年2月初次亮相,OpenAI放出几段演示视频,但并未公布产品进展和上线时间。如今,Sora被Adobe接纳,表明过去几个月又有不小进步,距离开放使用更近。
另一边,背靠抖音的视频剪辑软件剪映,同样朝着AIGC(人工智能生成内容)方向前行。但截至目前,剪映尚未拿出令人惊艳的成绩。
目前,剪映的AI玩法不少,包括一键成片、剪同款、AI克隆音色、数字人口播等,但并不具备根据文本直接生成视频的能力。它的海外版本Capcut在2月底推出文生视频功能,但效果距离Sora相去甚远。
如今,Sora除了在技术和产品上领先剪映,还得到了Adobe的青睐。Adobe在全球拥有超3300万付费用户;Sora接入“Adobe全家桶”,有望获取订阅收入分成,从而初步构建商业模式。
这也意味着,仍在打磨AIGC能力的剪映,追赶Sora的难度将越来越大。
剪映被外界视为抖音搭上AIGC时代快车的关键筹码。得益于抖音的加持,剪映已成为用户量最大的手机视频剪辑软件之一,每天产出大量短视频;在此基础上更进一步,从UGC(用户生产内容)迈向AIGC,似乎水到渠成。
今年2月7日,抖音功勋老将张楠辞去集团CEO职务,亲自带队剪映。她在官宣职务变动的内部信中称,AI图像生成对她产生很大的触动,潜力巨大,并决定“放下一切”,义无反顾地出发。
剪映的发展根基不可谓不好,抖音的重视程度也很高。但两个多月过去,剪映依然没有太大动静,Sora反而继续高歌猛进。
在AIGC时代,抖音及其背后的字节,似乎总是棋慢一着。
字节八年前布局AI,成立了专门的实验室,招募大批业内精英,但成果却停留在内容审核、自动翻译、搜索服务等。2022年下半年,ChatGPT引爆行业;字节随即增加大模型投入,一口气推出AI聊天机器人等十几款应用,却迟迟没有拿出震动行业的技术和产品。
今年1月底的年度全员会上,字节CEO梁汝波感叹,字节“该有的大公司病全有了”。他特别点名AI业务,称:“公司层面的半年度技术回顾,直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司,都是在2018年至2021年创立的。”
如今,在立身之本的视频内容领域,OpenAI着着抢先,剪映乃至整个字节又双叒慢了。
背靠抖音这颗大树,剪映原本有很大机会在AI文生视频领域的占得先机。
剪映2019年上线,2021年推出PC端的专业版。它显著拉低了UGC视频的创作门槛,普通人只需准备好素材、点击几下,就能生成一段质量尚可的视频,并一键发布至抖音。
此外,作为一款工具软件,剪映还带有一定的社区属性。除了官方提供的视频创作课堂外,用户还可以参考达人制作的视频模板进行创作,也就是“剪同款”。这有助于提高用户留存率和活跃度。
依靠丰富的功能,以及与抖音深度绑定,剪映仅用了三年就获得超1亿月活跃用户,跃升至同类软件的第一名。
剪映海外版CapCut的增长同样惊人。
Capcut上线于2020年,与TikTok关联密切。移动应用分析平台点点数据显示,目前Capcut的月活跃用户超2亿。另据市场调研机构data.ai的数据,截至2023年8月,Capcut在iPhone和安卓端的用户超4.9亿,相当于TikTok全球用户量的1/4。
除了用户规模庞大,剪映在AI领域的另一个优势是“近水楼台先得月”,坐拥大量可用于AI大模型训练的视频数据。
数据、算法和算力是AI大模型的三大基础要素,其中数据是根基。要想提升大模型的综合能力,就需要不断“投喂”多模态数据,主要是互联网文本、图像和视频。
OpenAI、Adobe等公司都不直接掌握数据,必须从第三方付费获取,成本不菲。据媒体报道,OpenAI每年仅采购版权新闻文章授权的费用,就高达100万~500万美元;Adobe为了训练自家的文生视频大模型,以每分钟3美元的价格,向另一个大模型服务Midjourney购买视频片段。
相比之下,剪映在国内绑定抖音、在海外背靠TikTok,每天有大量用户使用它剪辑和上传视频。这让剪映能够以相对低廉的成本,接触到大量视频内容,为训练大模型、探索AI文生视频功能打下基础。
但从2019年至今,剪映并未研发出强大的AIGC能力,反而早早启动了商业化。
剪映很早就上线了VIP会员,用户每月支付二三十块钱,可以使用专属素材、精选模板等,AI玩法也被列为会员权益之一。根据官方介绍,AI玩法主要包括“无限创作”“无限运镜”和“瞬息宇宙”,基于现有视频素材进行AI美化编辑。
不难看出,剪映的AI玩法距离Sora这样的文生视频相去甚远。此外,它的收费也并不低廉:会员每月可获得1200积分,而使用一次“无限运镜”就需要480积分。积分耗尽后,用户可以选择继续充值,兑换比例为1元:100积分。
剪映诞生之初的定位是,尽可能拉低短视频创作门槛,促进抖音UGC生态的繁荣。过去五年,它的确完成了这一任务,大量抖音爆款视频背后,都有剪映提供技术和模板。特别是那些趣味特效视频、踩点视频,抖音红人发布之后,大量用户迅速群起效仿、共同推高热度;没有剪映的帮忙,恐怕不易做到这一点。
但如今看来,抖音还是把剪映的天花板设定地太低了。它原本有机会成为Sora这样的划时代产品,却始终停留在视频剪辑软件的范畴。
今年以来,剪映开始奋起直追,但先机已失、对手已至,追赶难度也迅速增大。剪映被Sora甩开,字节在AI领域仍然没能跳出“起大早、赶晚集”的怪圈。这也从侧面印证了梁汝波此前批评的“平庸的重力”。
过度重视对业务的帮助,过早追求商业化,是剪映乃至整个字节AI板块的难题。
剪映除了开设付费会员、将AI玩法纳入权益包,还在APP内增加了不少广告位。例如,用户点击“剪同款”,映入眼帘的除了手机照片和视频素材,还有悬浮在素材上方、几乎毫无关联的横幅广告。
作为一款用户破亿的工具软件,剪映的常规投入和资金压力并不会特别大。它之所以早早发展会员和广告,或许与字节的做事风格和评判标准有关。
众所周知,字节是一家超快节奏、高度内卷的互联网巨头。如果个人、团队或业务无法迅速带来肉眼可见的产出,就有可能被调整,甚至彻底出局。即使是需要长期投入的AI,也无法跳出这一隐形的评判标杆。
早在2016年,字节就设立了AI Lab人工智能实验室,并引入多位学界和行业精英。彼时,OpenAI同样初出茅庐,正朝着通用人工智能的愿景前行,将自己视为非营利组织。
相比之下,AI Lab虽然名为“实验室”,实际上仍然需要密切配合和服务业务。它的官网宣称,其研究重点是开发为字节内容平台服务的新技术;具体领域则包括自然语言处理、数据挖掘、计算机视觉、机器学习等,且和抖音各业务板块贴合紧密。
随后几年,字节拿出了一系列AI工具,比如提供翻译服务的Byte Translator,AI写稿机器人Xiaomingbot,以及头条和抖音的搜索服务等。它们固然颇有价值,但算不上突破AI领域认知边界、定义AI发展范式的创新产品。
直到2022年下半年,OpenAI多年磨一剑,ChatGPT席卷全球,生成式AI成为全球科技公司竞逐焦点,字节才把更多精力投入到这一新浪潮中。
已经淡出字节一线管理的张一鸣,对AI产生强烈兴趣,并鼓励团队大举投入。他在2023年4月的一封内部信中称,“字节跳动无法错过AGI(通用人工智能)”,它是抖音和TikTok在全球发现新的增长机遇不可或缺的伙伴。
创始人发话后,字节各业务部门闻风而动。从那时起,字节陆续上线十多款AI产品,如豆包、话炉、扣子、Gauth等,剪映、飞书等也增添了AI功能。
但在这一轮大举投入中,字节以业务需求为原点、对标竞争对手的做事逻辑被延续下来。豆包等产品均为现有AI技术的场景化应用,而非对于AGI的原生探索。
例如,去年3月,微软上线整合了GPT功能的365 Copilot,全球办公软件市场为之震动。一个月后,飞书宣布即将上线AI助手“My AI”,以对话形式提供多种功能,包括优化和续写文字内容、创建日程、自动汇总会议纪要、搜索公司内部知识库等。
一年后,GPT已经在微软“全家桶”遍地开花,带动后者股价从250美元一路上涨至400美元以上。飞书却没能依靠My AI完成逆袭,反而在3月底宣布裁员。
又比如,Sora今年2月16日发布演示视频,CapCut一周后就宣布推出这一功能,每人每天可免费生成5段视频。CapCut的技术力显然无法与OpenAI比肩,其文生视频功能也较为简陋;仓促上线、对标Sora,不免带有蹭热点、强行完成KPI的味道。
从张一鸣点名AGI至今,字节AI又走过了一年,并未显著拉近与OpenAI的差距,甚至有扩大的趋势。字节AI向实用主义的过度倾斜,不仅让它错失了以往的机遇,也有可能拖累追赶的步伐。
对于AI板块各自为战、围绕业务打转的局面及其危害,字节已经有所察觉。
2023年11月,字节抽调多个部门的精兵强将,组建AI部门Flow。TikTok技术负责人朱文佳、字节产品与战略副总裁朱骏、字节技术副总裁洪定坤、飞书产品副总裁齐俊元均加入其中。人员的“高配”,显露了字节通过Flow统筹AI发展、消除重复建设的意图。
目前,字节曝光度最高的AI产品——豆包、扣子、话炉等,均由Flow部门负责。剪映、飞书、大力教育等虽然也有AI业务,但声量已经逐渐被Flow盖过。
另一方面,字节云雀大模型已经打磨近一年时间,多模态大模型BuboGPT也取得进展,为Flow批量产出AI应用奠定根基。假以时日,Flow有望扭转字节AI总是慢人一步的局面。
不过,字节毕竟不是OpenAI,没有微软这样的超级金主。AGI固然重要,但对于现有业务的拉动尚不明显,需要更长时间的沉淀和打磨,才能释放商业价值;字节对AGI的投入不可能无止境,必须考虑中短期的投入产出比。
短期来看,字节需要用钱、用人、用资源的地方很多,比如抖音货架电商、生活服务等,都需要大量真金白银。随之而来的现象是,尽管Flow挑起了大梁,但字节AI依然呈现兼顾业务需求的倾向。
据Tech星球近日报道,抖音生活服务刚刚成立一支AI团队,希望利用AI技术创造增量业务价值,且已开启对相关AI产品的研发,包括搭建生活服务相关的内容创作平台等。
抖音生活服务之所以拉起这样一支队伍,或许与竞争对手美团和饿了么的动作有关。
美团近日开始小规模测试AI助手服务“问小袋”,可为用户推荐符合其需求的外卖商品,以及用餐建议。饿了么则在4月初面向零售行业商家发布“AI经营助手”,可为商家智能生成各类经营关键报表和关键数据。
在此情况下,不让美团饿了么专美于前,或许是抖音生活服务入局AI的基本目标之一。
内外因素影响下,字节没有条件像OpenAI那样厚积薄发。既要追赶AGI潮流,又要具备快速落地、服务业务的能力,是字节AI的双重目标。
在张一鸣和梁汝波的督促下,外界无需质疑字节做AI的决心。但倘若再过去一年、两年,字节仍然跟不上OpenAI的节奏和水准,那么它或许应该考虑另一种选择:退回“卖水者”的角色,做AGI训练素材提供商。
如前所述,数据是大模型的三大基础要素之一,而字节麾下的今日头条、抖音、TikTok等,已经积累了数以亿计的文本、图片和视频。字节可以用这些数据训练自家大模型,也可以考虑更进一步,在妥善解决安全和隐私问题的前提下,将其出售给OpenAI等第三方公司。
充当AGI时代的“卖水者”,其实是字节擅长的流量生意的变体。字节如今的现金牛——广告和电商业务,都建立在流量变现的基础上;如果把AI公司转变为新客户,那么字节心心念念的第二增长曲线问题将迎刃而解。
另一方面,OpenAI既然能够与微软、Adobe合作,与字节合作也并非不可想象。毕竟,抖音和TikTok是Sora等AIGC服务最庞大的落地场景。倘若字节与OpenAI达成“竞合”关系,那么字节将跳出一步慢、步步慢的循环,在OpenAI的助力下搭上AI快车。
参考资料:
字母榜,《字节AI:失之PICO,收之飞书?》
字母榜,《Sora会“杀死”剪映吗?》
光锥智能,《不甘只做AI 应用工厂,字节跳动补课大模型》
Tech星球,《美团抖音下注新战场:内测外卖助手“问小袋”,成立生活服务AI》
新智元,《3300万剪辑师被革命, Sora、Pika、Gen-2将全面登陆Adobe》
本文来自微信公众号“字母榜”(ID:wujicaijing),作者:彦飞,36氪经授权发布。