近日,OpenAI发布了一款全新的视频大模型Sora,令人惊讶的是,它生成的视频竟然成为了“Tiktok独占”。在悄无声息中,OpenAI已经成功“入侵”了TikTok的领地,通过洗脑般的配乐让观众欲罢不能,疯狂地吸引粉丝。
令人惊叹的是,在短短4天的时间里,Sora的账号在Tiktok上就获得了10万新粉丝,收获了50万赞,而这一切都是在不进行任何宣传的情况下实现的。对此,数字经济应用实践专家骆仁童博士表示值得期待,在这个充满挑战和机遇的时代,意味着可以期待更多优秀的创意出现,也意味着AI技术和产品会诞生更多新的应用。
OpenAI显然非常担心AI视频会被人们当真,从而带来不良影响,因此他们不遗余力地以各种方式提醒观众:“这是假的!这是假的!”。网友们也开始发出警告:“从现在开始,你在网上看到的一切都是值得怀疑的,不要相信你的眼睛。”
然而,对于字节跳动来说,这并不是一个好消息,因为Sora所处的视频生成赛道,正是他们旗下剪映所瞄准的AI创新方向。在这个“Sora时代”,面对如此强大的竞争对手,人类创作者们该如何应对呢?
全球估值第一的独角兽字节跳动,与刚刚跃升第三位的OpenAI之间的对决已经拉开序幕,UGC王者和AIGC新贵之间,最终必将有一战。
2023年,字节跳动的收入超过了腾讯,成为了中国互联网的新王。在全球范围内,OpenAI领导的人工智能技术正在高歌猛进,科技企业迎来了新的起跑线,字节跳动的压力也与日俱增。
张一鸣在2023年的公开信中明确表示,字节跳动无法错过AGI(通用人工智能)的发展机遇。他认为,AGI将是抖音、TikTok等产品在全球范围内发现新的增长机遇的重要伙伴,有助于解决字节跳动面临的第二曲线增长困境。
在春节前,抖音前CEO张楠突然辞职转战剪映,引起圈内震动。此前有消息传张楠计划推出AI生图和视频产品,随着Sora的横空出世,人们惊觉,字节跳动可能又先行了一步。
但从市场效应来看,在张楠内部创业计划尚未完全展开之际,遭遇Sora的猛烈竞争,无疑将对字节跳动在AI领域的布局产生重大影响。张楠和梁汝波都深知这一点,他们必须全力以赴,才能在这个关键的领域取得突破。
OpenAI的出现为张楠的AI再创业提供了强大的动力。DALL-E 2的发布让张楠深刻体验到AI在图像生成方面的巨大潜力,AI将为传统内容创作带来颠覆性的变革,并有可能成为字节跳动实现新的增长的关键。
剪映作为字节系的视频内容创作平台,一直以来都表现出色。它成功地帮助抖音内容生态从PGC向UGC转变,降低了用户创作门槛。如今,随着平台内容生态的进一步演变,剪映再次站在了创新的前沿。AI生成视频产品的出现,为剪映提供了新的发展机遇,有望帮助其在内容创作者数量上迎来新的爆发。
在字节跳动内部,AI视频技术早已不是新鲜事物,甚至在Sora走红之前,他们就已经拥有了类似功能的技术。其中,Boximator这款技术更是被誉为“中国版Sora”。
Boximator的核心功能并非从零开始生成视频,而是根据文字提示,将静态图片转化为动态画面。它基于字节去年推出的PixelDance模型,引入了全新的动作设定方式,用户可以直接在图像中框选物体,并设置运动终点或绘制轨迹,从而实现对动态效果的精细控制。
Boximator的技术实现上,采用了插件形式与视频扩散模型结合使用,通过冻结基础模型的权重,只训练控制模块,从而达到高效的动态效果控制。例如,用户可以通过简单的框选和画笔操作,让小哈基米在视频中按照特定轨迹追逐球跑动。尽管在某些细节上仍存在bug(如飘走的雨伞没有伞柄),但Boximator在动画的完整性和逼真度上明显优于其他竞品。
在技术层面,Boximator通过在视频扩散模型的每个空间注意力块中增加一个新的自注意力层,有效地处理了由对象ID、硬/软标志和边界框坐标编码的控制token。同时,为了简化学习“框-对象”关联的挑战,Boximator还采用了一种名为自跟踪的技术。
然而,尽管Boximator在技术上具有诸多优势,但字节跳动官方表示,Boximator目前还处于技术研发阶段,尚未能够作为完善的产品落地。与国外领先的视频生成模型在画面质量、保真率、视频时长等方面相比,Boximator还有较大的差距。他们强调,Boximator是建立在之前PixelDance、MagicAnimate等更多字节团队研究基础之上的最新成果,旨在探索视频生成领域的更多可能性。
此外,值得注意的是,1月份,字节跳动研究人员在arXiv上发表了一篇论文,介绍了他们正在开发的另一款名为MagicVideo-V2的文本生成视频模型。这款模型通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现了从文字到视频的自动化生成。MagicVideo-V2的目标是解决Runway、Pika等在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等问题。
在商业层面,AI视频技术能够提升字节跳动的商业化效率,例如降低广告客户的视频制作成本。字节跳动已经在开发相关产品,帮助广告客户减少这部分投入。
与此同时,字节跳动的组织结构的调整也顺应公司的战略发展,张楠等优秀人才被调至AI领域,标志着字节跳动对人工智能领域投入的进一步加深。
字节跳动和张楠对于AI视频的期待,包括更高的保真度、更清晰的画面以及更自然的逻辑理解能力,已经被Sora提前实现,不过在追赶Sora的过程中,Sora的发布为行业提供了新的思路,也为同领域的创业者们提供了可借鉴的成熟算法。
但在全球范围内的AI竞赛中,字节跳动作为超级APP的制造者,仍然临着能否继续打造出爆品的巨大挑战,数字经济应用实践专家骆仁童博士指出,这其中充满了不确定性,而技术差距和创新人才的储备则是两个必须正视的关键问题。
目前Sora还未对外开放,仍存在许多不足之处,其官方表示仍处于世界模型研究应用的初级阶段,他们发现生成式视频的发展主要受限于算法的成熟度。
相比Sora推出在字节跳动方面似乎并未显得措手不及,视频行业的其他参与者则仿佛遭受了突如其来的打击。
Sora的出现首先动摇了Adobe的地位,其股价持续下跌,市值已蒸发超过百亿美元。在这一关键时刻,Adobe匆忙宣布组建一个50人的AI研究团队,但这一举措并未能缓解市场的担忧。
Adobe长期以来一直是视频生产和编辑工具的领导者,服务于广大的内容创作者。然而,随着AI技术的飞速发展,如果Adobe不能及时转型,很可能会重蹈覆辙柯达、诺基亚的覆辙。
转型同样面临巨大的挑战。例如,Adobe拥有大量的用户数据,但如果利用这些数据来训练AI,可能会引发与用户的紧张关系。此外,从过去Adobe在AI生图方面的表现来看,其效果与Midjourney存在明显差距。
其次,受冲击最大的还有素材供应商。例如Shutterstock等公司的日子也不好过。甚至连马斯克都认为这个行业可能会消亡。然而,Shutterstock已经为自己找到了一条退路,与OpenAI签订了合作协议,开始从素材供应商转型为训练数据供应商。
在年初的内部会议上,梁汝波反思了公司在GPT方面的迟钝反应,国内业界优秀的大模型创业公司都是在2018年至2021年间创立的。
2023年,字节才终于将AI提升到了战略高度。年初,字节向英伟达订购了超过10亿美元的GPU,并组建了专门的大模型团队。下半年,字节低调推出了云雀大模型,并基于该模型推出了一系列AI相关产品。
然而,相较于百度、阿里、腾讯等企业,字节在大模型领域的布局相对较晚。云雀大模型和AI相关产品也始终保持低调。有消息称,字节去年打算集中精力开发大模型,但最终并未达到预期。对于这一说法,字节尚未作出回应。
在张楠加入剪映和AI赛道后,外界对她上任后的新变化寄予厚望。然而,AI竞赛是一场全球范围内的竞争,字节作为超级APP工厂能否延续爆品神话,还面临诸多不确定性。
抖音和TikTok作为全球最受欢迎的短视频应用,其日活跃用户已接近20亿大关。这两款应用的核心优势在于其丰富的视频内容和多样化的场景。得益于去年大量投资的算力设备以及遍布全球的专业人才,字节跳动在人工智能领域的野心昭然若揭。
从抖音到剪映,字节跳动以全新的姿态重新出发,在人工智能时代,它能否再次引领潮流,书写新的辉煌?相信不久的未来,字节跳动将为我们揭晓答案。
关联分析:
OpenAI的文本生成视频大模型Sora震撼面世,2024年会是“AI视频生成元年”吗
百度、腾讯与字节跳动,谁能摘下国产Sora桂冠?
字节跳动CEO梁汝波2024内部讲话:字节正在变得平庸
华为、字节跳动相继入局大模型,当前的AI赛况如何?
市值猛增千亿,Photoshop母公司吃AIGC应用领域红利,老树Adobe如何开新花?
商道童言(Innovationcases)欢迎点赞和分享哦!~~
免费电子书:结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融