2024年的序幕刚刚拉开,全球科技巨头们正紧锣密鼓地推出最新产品,竞争异常激烈。例如,腾讯和百度的“文生视频”模型以及字节跳动的AI视频大模型等都在近期进行了更新。
虽然Sora实现文生视频的基本思路和逻辑在技术文档中已经公开,但要想真正复现甚至超越这一成就,仍然需要国内AI企业在算力、数据和工程能力等多个方面展现出强大的综合实力。
百度 UniVG
https://univg-baidu.github.io
百度的UniVG是一款革命性的视频生成工具,打破了传统技术的束缚,为我们揭示了视频创作的全新世界。它不仅仅是一个视频生成框架,更是一个重新定义视频生成可能性的创新平台。
UniVG采用统一模式视频生成系统,支持多种视频生成任务,如文本到视频、图像到视频以及文本与图像到视频的生成。这意味着你可以根据自己的需求和创意,自由地将文本和图像组合成独特的视频作品。
该模型的独特之处在于它能够从多模态的角度处理各种视频生成任务。通过重新审视系统中的生成自由度,UniVG将视频生成任务划分为高自由度和低自由度两大类。对于高自由度视频生成,UniVG利用多条件交叉注意力机制,能够生成与输入图像或文本语义高度一致的视频。而对于低自由度视频生成,它引入了创新的偏置高斯噪声,代替传统的纯随机高斯噪声,更好地保留了输入条件的内容。
官方数据显示,UniVG在MSR-VTT数据库上实现了最低的FVD指标,超过了当前开源方法在人类评估中的表现,并与当前的闭源方法Gen2不相上下。这一成就证明了UniVG在视频生成领域的领先地位和强大实力。
腾讯 VideoCrafter2
https://ailab-cvc.github.io/videocrafter2/
腾讯在与百度同一天推出了全新的视频生成模型VideoCrafter2,这款模型能够根据用户的文字输入,快速创建出几秒钟的高清视频。与前代产品相比,VideoCrafter2在视觉效果和人物动作表现等方面都有了显著提升,使得生成的视频更加生动逼真。
据介绍,该模型通过研究如何利用低质量视频和合成高质量图像来训练高质量视频模型,成功地实现了在保持运动质量的同时,将视频分布转移到更高质量的视频上。这一创新突破了传统高质量视频扩散模型在数据获取上的限制,为用户提供了更加高效、便捷的视频创作体验。
字节跳动 MagicVideo-V2
在AI领域的激烈竞争中,字节跳动凭借其超高清文生视频模型MagicVideo-V2,已经在大模型的主流玩家行列占据了一席之地。这款模型以其卓越的视频清晰度、流畅度、连贯性和文本语义还原能力,超越了当前市场上的主流竞品,如Gen-2、Stable Video Diffusion和Pika1.0等。
字节跳动在短视频和社交媒体领域的海量数据资源为其提供了独特的研发优势。这些数据不仅丰富了模型的训练素材,还使得字节跳动能够更深入地理解用户需求,从而优化模型表现。MagicVideo-V2的成功发布和显著性能提升,充分展示了字节跳动在AI领域的技术实力和创新能力。
随着火山引擎大模型服务平台“火山方舟”的推出以及与多家合作伙伴共建的生态体系的不断完善,字节跳动有望进一步巩固其在文生视频领域的领先地位。借助强大的用户基础和实时、多样的数据流,字节跳动将能够持续优化模型表现,并通过高效的模型迭代和协同创新,开发出更先进的文生视频模型。
这样的优势也带来了一定的挑战。作为数据层面最占优势的公司之一,字节跳动需要在工程能力上迅速补齐短板,以便更好地应对市场竞争和用户需求。只有这样,字节跳动才能摘下国内首个正式开放文生视频的桂冠,证明其在AI领域的全面领导地位。
此外,其他的互联网大厂也有对应的布局,如阿里旗下的魔搭社区推出全新的文本生成视频大模型,该模型由三个子网络构成,包括文本特征提取、文本特征到视频隐空间扩散模型以及视频隐空间到视频视觉空间,整体参数达到了惊人的17亿。
该模型采用了虹软ArcMuse大模型视频生成技术,基于diffusion-transformer技术架构,具有强大的创意力和想象力。通过图像,ArcMuse大模型可以捕捉到商品的细节特征、质感、色彩等方面的精确信息,从而生成更真实、生动的动态商拍视频。
Sora的出现标志着AI领域的一次重大突破,为内容创作和多个行业带来了全新的思考和机遇。数字经济应用实践专家骆仁童博士表示,2024年注定将成为AI视频领域的重大转折点。国内AI企业需要加速前进,追赶这个目标。百度、腾讯、字节等在大语言模型中领先的企业,也应该加快步伐。
商道童言(Innovationcases)欢迎点赞和分享哦!~~
免费电子书:结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融
数字经济应用实践专家 骆仁童主讲课程
人工智能:《AI趋势》《ChatGPT》
数字应用:《区块链》《元宇宙》《大数据》
数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》
数字化转型:《制造业数转》《零售业数转》《中小企业创新》
产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》
宏观与趋势:《数字经济》《2024宏观》《双碳》
思维与技能:《数字化思维》《组织变革》
创新与创业:《创业导师》《商业模式》