3 个月前,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间,海螺 AI 的网页版访问量便增速超 800%,还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。
一时间,不少国内网友直呼其为“国产之光”。
12 月初,MiniMax 又上新了图生视频模型 I2V-01-Live,新的模型专门对二次元效果进行了优化,能够更好的将静态的二次元图片转化为流畅且自然的动态视频,至此,海螺 AI 开始进军“动漫界”。
与此同时,OpenAI 的“双十二”活动也在如火如荼的进行着,万众期待的 Sora Turbo 顺势开放。当“国产之光”碰上“话题之王”,会擦出怎样的火花?雷峰网AI 科技评论第一时间对二者最新、最完整的模型进行了一手体验,在给定的一系列固定提示词的条件下,海螺 AI 的生成效果属实令人眼前一亮。
「国产之光」VS「话题之王」
在这场视频生成的狂欢中,不少网友脑洞大开,提供了各种虚实结合的有趣 idea:
在网友对比海螺 AI 和 Sora 生成的“喝茶的龙”的视频下,评论区普遍认为 Sora 生成的龙与背景存在一定的违和感,尽管能够创造出看似真实的图像,但在细节融合和场景一致性上可能还存在一些挑战。
提示词:ancient dragon drinking tea。古老的龙在喝茶。
也有网友直接让两个模型生成《了不起的盖茨比》小说中所描述的画面,对比其生成效果的还原度,并锐利点评:海螺 AI 的效果确实有 20 世纪的味道,但 Sora 的效果却显得过于现代,不符合提示词的要求。
提示词:A realistic, high-definition 16:9 horizontal video depicting a lavish party at Jay Gatsby’s mansion from F. Scott Fitzgerald’s novel ‘The Great Gatsby’. The scene captures the extravagant 1920s.
一个真实、高清的16:9横向视频,描绘了F. Scott Fitzgerald的小说《了不起的盖茨比》中Jay Gatsby的豪宅里举办的奢华派对场景。这场戏捕捉了20世纪20年代的奢华氛围。
还有网友将同一提示词下 sora 和海螺 AI 生成的视频做了横向对比并评论:现在不需要Sora,海螺 AI 也能满足我的一切需求。
提示词:An astronaut in a white suit with a reflective visor stands amidst a glowing meadow of bioluminescent flowers under a surreal, starry night sky. The astronaut reaches out toward ethereal, glowing jellyfish floating gracefully in the air. The camera performs a slow dolly zoom。
一位穿着白色宇航服、戴着反光面罩的宇航员站在一片发光的生物荧光花丛中,头顶是超现实的繁星点点的夜空。宇航员伸手向空中优雅漂浮的幽灵般发光的水母。摄像机进行缓慢的推拉变焦拍摄。
除了以上这些对比二者生成效果真实性的网友外,也有大批网友在体验了 MiniMax 最新的 I2V-01-Live 图生视频模型后纷纷加入了对 海螺AI 的赞誉行列。
有从事艺术行业的网友晒图并表示:这是我尝试过的最难动画化的图片之一,几乎所有平台都试过了,只有海螺 AI 成功让这张图片动了起来!
更有网友专门整理了视频海螺 AI 的视频合集,并配文:I2V-01-Live 就是为了让 2D 动画动起来而设计的,它不会让你失望!
甚至有网友用 I2V-01-Live “复活”了塔罗牌:这些人物动作流畅,仿佛被注入了生命一样!
也有网友在尝试过之后,认为这个模型的生成效果和儿童故事的插图完美匹配,效果十分完美。
流畅、真实、有质感
看过了网友们对海螺 AI 和 Sora 的真实测评后,AI科技评论也进行了一手体验,为了更加直观的进行对比,生成时统一使用了 Sora 官方 demo 的视频提示词。
在尝试制作“猕猴眼部特写镜头”视频时,海螺 AI 的生成效果相较于 Sora 更为直观。视频中,镜头缓缓移动,揭示出主角是一只猕猴,毛发与脸部轮廓处理真实细腻。然而,Sora 的效果如果不结合提示词来理解,很难让人将其与“猕猴”联系起来。尽管如此,Sora 却成功捕捉到了猴子眼中的“星河宇宙”,而这一细节在海螺AI的效果中并不那么明显。
提示词:a closeup of the eye of a macaque monkey. it is very still. the eye does not move, and the gaze of the eye does not move. the monkey stares back at us in the camera. we see the universe in the eye of the monkey.
一只猕猴的眼睛的特写镜头。它非常静止。眼睛不动,目光也不移动。猴子在镜头中凝视着我们。我们在猴子的眼睛里看到了宇宙。
在处理“头发凌乱不堪”这一指令时,两个模型都选择了通过“风吹”的效果来展现。然而,海螺 AI 所呈现的画面更具动感,画面感更为强烈。画面中,一位老人缓缓转身,微风轻拂,自然地掀起他的头发,显得既真实又细腻。相比之下,Sora 的处理则显得有些粗犷,仿佛是在“乱吹”。
提示词:a close up of an old man having a really bad hair day.一个老人头发凌乱不堪的特写镜头。
主角行走时动作僵硬、缺乏流畅性是许多视频生成大型模型普遍面临的问题,即使是被誉为“话题之王”的 Sora 也未能免俗。在 Sora 生成的视频中,人物行走时步伐略显僵硬,同时伴随着镜头的轻微拉近,本意是为了营造一种从远及近的视觉效果,但结果却不尽人意,反而让画面显得有些不协调。
而海螺 AI 在这方面的处理则显得更为自然且流畅,巧妙地避免了这些问题,让人物的动作和镜头的过渡都更加和谐,视觉舒适感拉满。
提示词:a hooded hunter walking between the trees in the snow.一个戴着兜帽的猎人在雪中的树林间行走。
技术至臻,才能画面至美
测评之外,真实的榜单数据也在彰显着 MiniMax 的技术实力。
时至今日,MiniMax 视频模型依然凭借其卓越的画面质感、内容的真实性以及流畅性等优势,在 VBench榜单独立测评评分上稳居首位。
据 MiniMax 介绍,他们的大模型每天要与全球用户进行超30亿次交互,平均处理超过3万亿文本token,生成2000万张图片以及7万小时语音。在全球拥有多元化用户分布的同时,位居国内 AI 公司大模型日处理交互量榜首。
和Sora在年初的初次亮相相比, MiniMax 在视频生成赛道上的“姗姗来迟”,公司创始人闫俊杰则表示这其实是一种“蓄力”,他希望 MiniMax 能够在技术上形成绝对优势后再进入赛道,以弥补入局晚的劣势。在他看来,要大投入去做的技术研发,不应该只追求 5% 或是 10% 的提升,而应该追求几倍的提升。
也正因如此,MiniMax 在视频生成赛道中的“迟到行为”,便更像是刻意而为之,给人一种待万事俱备之时,再乘东风之势,一鸣惊人的从容与淡定。
事实证明,他们做到了。
2024 年 8 月,MiniMax 的 Abab-video-1 模型一经上线便火遍全球,迅速包揽各大榜单的 TOP 1。但在人们一声声“国产之光”的欢呼中,闫俊杰最先冷静下来,他知道对于 MiniMax 而言,技术的重要性还在不断的提升,技术好了,才能留住用户。他曾说:“当技术做不好的时候,所有东西都是问题,当技术做好了,所有问题都会被掩盖。”
继10月上线图生视频功能后,MiniMax此次发布最新图生视频模型 I2V-01-Live,再次证明了 MiniMax 在视频生成大模型领域的技术能力。快速的产品更新周期将人们对海螺 AI 未来的文+图生成视频以及编辑可控性的期待值直接拉满。
在竞争日益激烈的视频生成大模型领域,MiniMax 作为新兴力量,凭借专注深耕的技术路线与精准前瞻的战略布局脱颖而出,拉着视频生成行业往前走了一大步。
然而,作为“后来者”,MiniMax究竟是如何推动行业发展的?其中缘由并不难理解。
从Mini,到Max
Sora 热潮掀起了国内对视频生成大模型的广泛关注,各大公司“先后”入局,MiniMax 凭初创公司的身份,在一众“宇宙大厂”面前表现不输。
从默默无闻的初创公司,仅用了三年时间便到“国产之光”,MiniMax 或许真的不一般。
自公司成立,MiniMax坚持在多模态发力,其视频生成模型生成内容从细节性、准确性以及丰富度上都得到了不错的效果。
在应用趋势上,MiniMax 的两款视频生成模型抢在 2024 年正式上线,紧抓 AI 视频大模型爆发式增长的机遇。作为 AI 视频的应用元年,2024 年不仅是一个重要起点,也预示着行业迈入高速发展的新阶段。随着模型能力的不断提升和推理成本的逐步下降,未来3-5年内,各类应用场景将陆续被解锁。而 MiniMax 的这一布局,无疑占据了行业应用趋势的制高点。
从更长远的视角来看,视频生成模型则承载着更宏大的愿景,有望成为世界模型以及通用 AGI 不可或缺的重要组成部分。无论是眼前还是未来,MiniMax 的路看似都没有走错。
除此之外,新一代的 AI 视频工作流也正在萌生,它将会整合音频、视频的整个创作流程,大大的提高创作效率,同时也可以降低 AI 视频内容在制作中各个环节的“违和”现象。这个工作流主要包括“精细化生成”和“流程化整合”两个方向,前者主要是对视频中的各类细节进行精准调试,后者是通过一站式服务提高工作效率。在这方面,MiniMax凭借自研语音模型、音乐模型的创新和应用,可能早已为此做好了布局。
MiniMax 选择在国内的 B 端和 C 端同时发力,打破了国内市场被“大厂”瓜分的商业化布局,力求在不同市场层面取得突破。通过满足企业客户的高效工作流需求以及个人用户对创新工具的追求,MiniMax 能够在两条市场线中获得更多机会。除此之外,MiniMax 还积极扩展海外市场,寻求全球化的发展机遇,利用不同地区的需求特点和潜力,推动品牌的全球化发展,并为其未来的商业化带来更多的机遇。
与此同时 ,MiniMax 也在 AI 视频生成的竞争中,凭借其在基础模型、产品和场景三个关键要素上的深度布局,逐步推动了技术和市场的发展,拉着国内视频生成行业往前走了一大步。
至于 MiniMax 还能走多远,看它硬是把自己从 mini 拼成了 Max 的劲头,足以相信它以后的路还会很长。