国产视频大模型,不必成为 Sora 平替。
作者 | 十九
编辑 | 郑玄
一场「12days of OpenAI」掀起了全球科技狂欢,经历了 10 个多月的漫长等待,Sora 也终于千呼万唤始出来。在感叹其强大能力的同时,我们不禁思考:国产视频生成大模型与 Sora 相比,究竟处于何种水平?
国产视频生成领域的翘楚——海螺 AI,最近刚刚发布了全新的 I2V-01-Live 图生视频模型,这已经是自海螺 AI 自今年 8 月发布视频生成模型以来,短短 3 个月的第三次迭代了。这次,它卷到了风格化视频生成赛道。
一张图+一句话就能轻松将 2D 插画转化为动态视频。这不仅是对现有视频制作流程的进一步完善,更在创意实现方式上予以了有益补充。
I2V-01-Live 所呈现的动画电影级效果,是其视频生成技术不断进化的成果。不同于 Sora 提前一年进行的「预售」策略,海螺 AI 的打法是:在用户使用中,边吸收、边迭代。这种模式让海螺 AI 以「中国速度」,实现了模型精度、用户体验的双重提升。
01
理解+可控=精准
人工智能在成为稳定的生产力工具方面一直面临挑战,其最大的障碍在于输出的不可预测性。
众所周知,视频实质上是由一系列连续的静态图片组合而成。相较于直接生成视频,通过图片来构建视频的过程提供了更高的控制度。这是因为图片是具体且独立的,它们能够更有效地辅助 AI 精确解读和执行创作者的指令。
而输出的不可预测,还与提示词的描述是否容易被 AI 理解有关。在使用海螺 AI 的过程中,我们注意到它具备一项独特的 AI 优化提示词功能,这一功能能够协助用户一键精确表达意图,这不仅极大提升了大模型对提示词的理解能力,同时也对不擅长构建提示词的新手用户十分友好。
我们选取了 Sora 官网展示的一些视频,用相同的提示词在海螺 AI 上生成了同一组视频。
原 prompt 为英文,我们做出了中文意译:
Reflections in the window of a train traveling through the Tokyo suburbs.
列车穿梭在东京郊区时,车窗上的倒影。
如果我不说,你能猜出哪个是 Sora 生成的,哪个是海螺 AI 生成的视频吗?
揭晓答案~上面是 Sora 生成的视频,下面是海螺 AI 生成的视频。
prompt 中强点的关键词有穿梭的列车、东京郊区、车窗上的倒影。Sora 和海螺 AI 生成的视频都准确呈现出了列车穿梭、郊区、车窗等元素,巧合的是,两个视频都合理的添加了建筑、电线,让场景显得更真实。
两个视频在视频效果呈现上可谓是旗鼓相当,但在光影方面,尤其车窗上倒影这个关键要素的细节方面,海螺 AI 明显更胜一筹。
这一组视频的 prompt 比较简单,只有一句话:
michaelangelo sclupting statue of david in a Booteghe.
米开朗基罗在工作室中雕刻大卫雕像。
Sora 生成
海螺 AI 生成
同样是工作室里,Sora 呈现的视频中,光影和粉尘细节都非常到位,还有一位拿着工具清扫的工作人员,但米开朗基罗的手部动作不太自然,没有体现出在进行雕塑,大卫的雕像这一关键要素也没出现。
海螺 AI 的作品中米开朗基罗拿着工具雕刻大卫雕像的动作自然流畅,整个工作室的画面也更丰富,展示了不同雕塑作品,以及打开的窗户洒进的阳光照在桌面和雕塑上的细节都非常合理、真实。
two trees face each other in the wind. their leaves wrap towards each other.
两棵树在风中相对而立,它们的叶子向彼此缠绕。
Sora 生成
海螺 AI 生成
这一组视频中元素并不多,要呈现的重点分别是两棵树,以及树叶被风吹动且相互缠绕的画面。两个视频对「树叶缠绕」这一点的呈现都不到位,Sora 生成的视频中两棵树基本互不打扰,海螺 AI 生成的视频则是两颗树挨得很近。
从最终的呈现效果来看,海螺 AI 对 prompt 的理解比 Sora 要更到位一些,风吹动树叶的动态感更明显。
复杂长句的 prompt 来了!
A majestic train winding through the stunning Alps, surrounded by snow-dusted forests that sparkle like sugar under a dreamy, ethereal sky painted with soft pastels of pink, purple, and gold. The scene feels magical and serene, evoking a sense of wonder and tranquility.
一列雄伟的火车蜿蜒穿梭于壮丽的阿尔卑斯山间,四周是白雪皑皑的森林,在如梦如幻、色彩柔和的粉色、紫色与金色交织的天空下,此景奇幻而静谧,不禁让人感叹惊奇它的和宁静。
Sora 生成
海螺 AI 生成
这组视频的 prompt 对 AI 来说略显复杂,关键词很多,涉及动态、色彩、环境等多方面。不出意料,这组视频果然出现了一些小 bug~
Sora 生成的视频中,第一个关键词就被漏掉了「火车穿梭」的感觉完全没有体现出来,镜头倒是穿梭了。另外粉色、紫色、金色交织的天空色彩呈现也稍显不足,有点色彩,但是不多。整体云层、雪山的高度,导致整体环境略显压抑,奇幻有了,宁静不足。
在海螺 AI 生成的视频中,刚刚提到的火车穿梭、天空色彩都表现出来了,但火车行驶中飘起的雾气有点过大,而且飘向空中后没有逐渐变淡,不过整体来说瑕不掩瑜,prompt 提到的关键词都有呈现。
这组视频有点抽象,请大家自由赏析,畅所欲言~
Apply a dynamic contrast between motion and stillness. Identify regions within the image to animate with subtle, fluid movements—such as rippling, pulsing, or swirling effects—while freezing other areas in place. The animated sections should appear as though they are gently alive, with a dreamlike flow, while the still areas remain perfectly frozen, emphasizing texture and detail. Create a seamless interplay between the motion and stillness, with transitions that appear organic and natural. Use soft lighting changes to enhance the distinction between the two states, creating an ethereal and hypnotic balance.
在动静之间营造动态对比。图像中的区域,用微妙、流畅的运动效果(如波纹、脉冲或旋转)进行动画处理,同时将其他区域保持静止。动态部轻柔生动,带有梦幻般的流动感,静止区域则完美定格,突出纹理与细节。在动态与静态之间创造无缝的交互,过渡看起来自然和有机。使用柔和的灯光变化来增强两种状态之间的区别,创造一种空灵而迷人的平衡。
Sora 生成
海螺 AI 生成
02
理解的下一步:突破表达困境
生成式 AI 的演进很大程度上遵循文字——图片——视频的规律,每一次进阶都需要攻克相应的能力来实现转化。海螺 AI 在这一演进过程中的表现尤为突出,在文字生成阶段,海螺 AI 就已经展现出了深厚的自然语言处理功力,能够够理解和生成流畅、自然的文本,无论是新闻报道、小说创作还是日常对话,都能够游刃有余。
今年 8 月,海螺 AI 新增视频创作功能,能力得到了进一步升华。这一过程中,海螺 AI 的迭代速度令人瞩目,基本月一次的小更新,三个月一次的大迭代,让它迅速在视频生成的大模型竞赛中崭露头角,站上了世界舞台。
在长复杂指令遵循、动作物理逻辑及人物表情刻画方面表现亮眼,海螺 AI 能够精准地捕捉到逐个关键信息,并按照要求进行视频内容的生成。
这则视频的作者在帖子中写道:「海螺 AI 非常擅长表现人类的情感/表情」。
这段堪称经典的情绪转变,让我们在 AI 的演绎中见证了所谓的「演技」。海螺 AI 的这一突破,不仅体现了技术的先进性,更是在情感共鸣的层面上,拉近了 AI 与人类之间的距离,甚至为 AI 与人类在广泛领域的深度合作和共创提供了新的可能性。
03
用户喜欢的才是最好的
Sora 已经上线 3 天,但热度持续攀升,排队体验的用户越来越多,服务一致处于繁忙状态。甚至在 12 月 12 日上午,由于流量激增 OpenAI 官网一度崩溃,不得不暂停注册和登录服务。
国产视频生成大模型这边,「现货」海螺 AI 的体验也堪称火爆。现在「hailuo」关键词已经成为了 X 平台上的一大热词。
破碎的玻璃、溅起的水花、扑动的鱼尾...... 充满细节的画面处理,让现实中不可能出现的场景得以通过 AI 呈现出来。
动画风格、写实风格,剧情向、动作向、奇幻向、艺术向,仿佛一场盛大的灵感创意大赛。可以说,只有你想不到,没有海螺 AI 做不到。
MiniMax 创始人闫俊杰曾在媒体采访中提到,公司的愿景是让 AI 为普通人所用,提高用户渗透率是重中之重。海螺 AI 在这方面无疑取得了巨大成功,在海外市场收获了极高的赞誉。众多用户纷纷展示利用海螺 AI 创作的作品,并自豪地宣称其品质丝毫不逊色于 Sora、Runway 等国际知名的顶级大模型。
另外,从性价比方面来看,免费试用的海螺 AI 无疑更胜一筹。Sora 提供的 Plus 和 Pro 两个版本,分别售价 20 美元和 200 美元每月,Plus 版可以生成 50 个最高分辨率分别为 720p 的 5 秒视频;Pro 版可以生成最高分辨率为 1080p 的 20 秒视频,还支持同时生成 5 个并行视频和无水印下载。
相比之下,海螺 AI 分为普通用户和会员用户两种,普通用户可以免费试用海螺 AI,体验 AI 视频创作的乐趣。新用户注册即获 1000 积分,每日登录额外获 100 积分,每 30 积分可生成一个 6 秒视频,支持并行生成 3 个视频,1000 积分约能制作 33 个视频;会员用户拥有无水印下载、双并发完成任务等功能。
04
跟上 OpenAI,超越 OpenAI
近年来,中国 AI 企业出海热潮愈发显著。以海螺 AI 为例,自其推出以来,在海外市场的表现可圈可点。8 月 31 日,MiniMax 发布首款 AI 高清视频生成模型「abab - video - 1」后,搜索量激增,海外社交媒体平台上充斥着海螺 AI 生成的视频片段。海外网友纷纷在社交平台分享使用体验,普遍认为海螺 AI 是目前市面上最出色的 AI 视频生成工具之一。
视频创作功能上线一个月,海螺 AI 网页版访问量增速超 800%,位列 AI 产品榜 (web) 9 月全球增速榜、国内增速榜双榜单榜首。10 月,海螺 AI 更新了图生视频的能力,这一功能的推出让热爱玩梗图的海外用户们再一次沸腾。海螺 AI 在视频生成领域成为 Sora、Runway 等知名公司的有力竞争者。
数据统计,在全球约 1500 家活跃 AI 企业中,中国出海企业已达 103 家。Sensor Tower 发布的 2024 年上半年美国 AI 应用市场的下载量数据显示,排名前十的 AI 应用中有三款来自中国企业。这充分说明中国 AI 企业在海外市场的影响力正在不断扩大。同时,不同地区的用户消费习惯不同,海外市场消费者对于创造性产品的付费意愿和能力更强,为国产 AI 产品的商业化提供了良好的土壤。
海螺 AI 的爆火只是中国 AI 企业出海的一个缩影,它展现出了中国 AI 技术在全球范围内的竞争力和潜力。未来,中国 AI 企业将在全球舞台上绽放更加耀眼的光芒。
*头图来源:MiniMax
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
Sora VS 国产视频生成大模型,
你更喜欢哪家的风格?