成立996天的MiniMax主动揭开神秘面纱

作者：华尔街见闻发布时间：2024-09-04

作者 | 刘宝丹

编辑 | 黄昱

作为国内最受追捧的AI独角兽之一，MiniMax在这波AI大模型浪潮中成为不可忽视的存在。

近日，MiniMax在上海举办了一场主题为“2024 MiniMax Link伙伴日”的活动，创始人闫俊杰分享了基于MOE（混合专家模型）+ Linear Attention（线性注意力）的新一代模型技术的应用，并展示了公司最新的音乐模型、视频模型的研发成果。

这是MiniMax第一次主动发声。在成立996天后，这家国内估值最高的AI独角兽公司试图讲清楚自己正在做的事情。

纵观全球，AI大模型仍处于激烈的技术竞赛当中，这也是MiniMax当前最重要的事情。

闫俊杰对华尔街见闻表示，“目前的阶段，最重要的东西还不是商业化，是真正地对技术到达广泛可用的程度。”

会上，MiniMax推出基于MOE+ Linear Attention的新一代模型技术。据闫俊杰介绍，在与GPT-4o同一代模型能力对比上，新一代模型处理10万token时效率可提升2-3倍，并且随着长度越长，提升越明显。

“相比于通用Transformer架构，新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下，新架构成本减少90%以上。”闫俊杰如是强调。

MiniMax是中国首个研发MoE大语言模型并持续在模型算法上做创新的公司，这背后体现的是公司对技术路径的判断。

闫俊杰表示，不管是做MOE还是Linear attention，还是其他的探索，本质上还是让同样的效果模型变得更快。“快意味着同样的算力可以变得更好，这是我们底层做研发的思路，除了Linear attention、MOE，可能还有一些其他的比较有价值的事，我们也在探索。”

同时，这也是MiniMax推出AI大模型产品和功能的支撑和底气。

MiniMax首次推出视频模型和音乐模型，由此，公司在模型产品的布局上囊括了文本、语音和视频，成为布局最全面的AI创业公司之一。

具体来看，MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点，可生成原生高分辨率、高帧率视频。

闫俊杰表示，“视频这次确实取得很大的进展，我们内部来评测，包括跑一些分，应该比像国外Runway有更好的效果，这个东西只是我们的第一版，很快还会有更新的版本。”

MiniMax的第一款音乐模型，可以合成纯音乐，为制作人快速构建歌曲的基本结构，由歌手自由演绎主唱或和声部分。据悉，MiniMax语音模型已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前，MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。闫俊杰透露，abab 7系列文本模型将于未来数周内正式发布，并采用新一代创新技术。

对于外界最关注的商业化问题，MiniMax也给出了清晰的思路。

闫俊杰表示，整个公司的商业化基本上分成两个形式，一个是开放平台，现在已经有两千多家的客户；第二点，在公司产品里面也有广告的机制。

对于视频模型的商业化考虑，他表示，再等一两周，更新后达到一个更加满意的状态之后，可能会考虑一些商业化。

一个重要的参考标准还是产品能力。MiniMax国际业务总经理盛静远表示，对国内市场2B或者工具类，现在的思考是不断地把偏工具类的产品，比如海螺，打磨出新的功能，直到有用户粘性。

对MiniMax来说，用户粘性是考虑ROI和retention的前提条件。显然现在还不是时候。

“ROI会有转起来的一天，但不是今天的产品形态。”盛静远直言，今天的产品形态，作为一个普通的消费者，没有任何的忠诚度可言，一旦收费，消费者就可以换到另外一个产品，这个模式是不成立的。

在经过了一年多的技术狂奔后，AI大模型创业公司已经开始进入产品竞赛阶段，随着MiniMax多模态产品的发布，也将行业的竞争带入新阶段。

以下为对话实录（经编辑）：

问：最近《黑神话悟空》很火，MiniMax会把AI生成视频应用在游戏里面吗？

闫俊杰：《黑神话悟空》是传统的建模渲染的方式，基于视频生成的方式至少提供一种可能性，并且原则上来说上限会更高，基于渲染的方式，进步速度很慢。

生成视频跟生成文本是一样的，2年前可能完全不可用，现在变得可用。现在大家看到的效果，不管是我们做的，还是可灵做的，还是Runway做的，还是Open AI做的Sora，都只是一个开始，这只是第一年，接下来的进步速度一定会变得非常快。

我不太知道能否替代掉传统的渲染引擎，但是至少能够提供一种可能性，因为进步速度快，越长期看，进步越快的东西就越好。

问：有人评价，公司AI智能的算法还是比较厉害的，请介绍一下生成视频算法的事情。

闫俊杰：视频最主要解决的问题是这样的，比如说为什么我们的推出，比可灵要晚一两个月，核心是我们在解决一个更难的技术问题，如何能够原生的训练算力比较高的东西，这件事情为什么这么难？在训练视频生成能力的时候，也需要先把视频变成一些token，视频变成的token会非常的长，非常的长之后越长复杂度就越高，之前的方法是平方的关系，我们其实算法上主要干的事是说怎么样把复杂度往下降低一些。压缩率变得更高，这个事花了我们很多的精力，就晚了一两个月。

现在也看到了收获，当你真的把算法变得更好的时候，确实是有一个更好的效果。不管是视频、文本、声音，核心的东西都不是说找一个算法提升5%、10%，比较重要的是找一个东西能不能提升几倍，如果能提升几倍就一定要做出来，如果只提升5%就不太值得做，这个就是我们做研发的思路。

问：后续是在哪个方向迭代？

闫俊杰：数据、算法本身，包括更加方便使用的细节，比如说现在只提供了文生视频，比如图生视频，文+图生成视频，可编辑的可控性这个事都会陆续出来。

问：今年视频生成赛道非常激烈，MiniMax为什么要做视频生成，对你们整个布局来说有什么必要性吗？然后挑战和难点。

闫俊杰：在人类社会大模型的核心意义做更好的信息处理，大部分的信息体现在多模态的内容里面，而不是体现在文字上。

为了能够有高用户覆盖度和使用深度，唯一的办法是能够输出动态的内容，这是一个非常核心的判断。之前我们先做出来文字，又做出来声音，其实很早做出来了图片，只是现在技术变得更强，把视频也做出来。这个路线是一以贯之的，一定要能够做多模态。

问：挑战和难点呢？

闫俊杰：首先这件事还挺难的，如果不难，不会全球只有两三家公司能做得很好。

难点在于有些独特的东西，然后有些可以复用的东西。独特的东西在于视频，工作复杂度比做文本更难，因为视频的context的文本天然很长，比如，一个视频是千万的输入和输出，这天然就是一个很难的处理。其次，视频量很大，比如看一个5秒的视频有几兆，但5秒看的文字可能都不到1K，这是几千倍的存储差距。

挑战在于，之前基于文本建的这套底层基础设施怎么来处理数据，怎么来清洗数据，怎么来标注，对视频上都不太适用，意味着基础设施也需要升级。

还有的话是耐心，做文字有很多开源的东西，做视频开源的东西没那么多，很多东西需要重新来做，需要付出的耐心也更大。

问：关于AI出海，想问一下MiniMax你们怎么看出海这个市场的？

闫俊杰：其实我们国内用量不比海外小，但是我不太知道为什么大家都只觉得我们出海做得好，其实我们的技术起来非常领先的，但大家总觉得我们产品做得好，我不太理解为什么会这样。

问：最近快手有推出飞船，整个产品风格有点类似于星野，从MiniMax的角度来说，国内还比较卷，怎么能够把我们自身的壁垒提升？

闫俊杰：这个事就是一个发展的客观规律，作为一家小的创业公司来说，我们在竞争中打不赢，那就应该被淘汰，其实也没有其他的选择。

我们能做的就是，觉得有可能变强的事无限地放大，两点：一是技术如何提升，二是如何跟用户做更好的共创，也就只有这两点，这两点都需要一些非常关键的判断，需要靠非常长期的积累。

问：不知道方不方便透露投资人对MiniMax有什么期待？包括阿里和腾讯这边，是比较在乎商业化的进展还是技术方面的进展？

闫俊杰：实际的情况是投资人不是一个人，投资人是一个组织，一个组织意味着大部分时候没有一个统一的观点，真实的情况就是这样。

我们还是一家很小的公司，公司各种各样的数据，尽管已经提升了很多，在某些领域里面有些优势，相比这些大公司非常成熟的业务来说，占比都是非常小的，甚至可以说是不值一提。我觉得核心不是他们怎么看，核心还是我们自己怎么样做得更好。

问：星野和海螺的用户画像分别是什么样的人？

闫俊杰：星野是一个很独特的内容平台，是完全基于AI的一套内容社区，这个事在全球范围都是挺独特的。

抖音、小红书、B站、知乎都是一个社区，至少在AI内容社区这件事上星野还是做得比较靠前。AI本质上是一种新的内容交互形态。

星野的用户画像二三线城市为主，年龄在17-24/25岁之间。海螺用户画像更泛一些，海螺本来就是工具型的产品。

问：目前很多星野或者Talkie上面的用户，对产品的需求是想要一个很帅气的对象陪伴我，但目前智能体，或者虚拟的角色很难进行深度的聊天和陪伴，会导致用户的流失。像这样一类的产品，会如何应对这样一个问题？

闫俊杰：现在确实有这样的问题，本质上就是模型不够好，当前的模型没有很长的记忆，理解不了特别复杂的指令就会这样。社区是所有的互联网产品里面最难做的产品，这件事需要一步一步演化，不是一蹴而就。

问：之前MiniMax一直拿的是美元基金的钱比较多，后面哪些钱可以入场？如果这边融资困难的话，会做哪些应对？

盛静远：一家公司真正的价值在于自身创造商业价值。今天讲的“快就是好”，也是在同等计算GPU的条件下，尽可能训练更多的轮次，训练更大的数据。经过几次科研的突破，我们能以比较有限的资源做出一个在国际上，也能在第一梯队的多模态的表现，这个我们目前还是比较骄傲的。

作为所有中国大模型公司里面，基本上少数几个能讲商业化，能讲变现，能讲产品跟模型一起驱动，甚至很有可能在比较短的时间内实现自负盈亏以及盈利，这个是一个最有希望说，也最sustainable的一个方式。

最核心的还是技术突破，产品是技术突破的体现，这个产品能够最终实现商业化，来反哺到后续的技术投入，这是公司真正转起来的标志，可能我们现在在半山腰的状态，如果做得比较成功，很快就能达到一个正向的循环。

问：怎么判断大模型技术，有什么通用的指标吗？

闫俊杰：技术好坏怎么判断这个事很难。我们也经历过，当评价标准不够好的时候，模型迭代有时候也会误入歧途。我们目前用的方式，有可能也不是对的，至少我认为比较可能的方式是这样的。

我们的开发平台大概有3万多个开发者，付费的客户就有几千家，有些客户对场景看重，要求保证产品效果，我基于这样的场景构建一个测试级，还是比较客观的，原因是这个测试级上所有的国产化模型都比GPT4差得很多，你看其他的排行榜基本上GPT4都要排到中间去了，但是在我们的排行榜上确实GPT-4o排在最靠前，包括我们的模型在内，所有的模型都跟GPT4有本质上的差距，而且越难的问题差距越大，这个是我们的评估方式。

至少按照这个评估方式来看，我觉得我们的提升空间还是挺大的。这个事每个公司有自己不同的思考。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

成立996天的MiniMax主动揭开神秘面纱

推荐体验

相关资讯

前沿新知之揭开ChatGPT的神秘面纱

优秘智能：揭开实时互动数字人的神秘面纱

专访绘画师关彦斌，揭开AI绘画的神秘面纱

解码 AI：揭开 AI 硬件、软件及其背后工具的神秘面纱

人工智能：定义未来，揭开历史神秘面纱，展望无限可能！

近期资讯

民生证券：华为发布三折叠手机持续关注增量赛道

直击2024年服贸会首日现场，文旅服务最大展区——“北京大视听”展“潮”有料！

手机无战事

外媒：19人同时身处太空近地轨道创下人类历史新纪录

华为三折叠手机Mate XT非凡大师的预约人数已达568.1万人

大“展”身手！腾讯会议、美图秀秀、美颜相机等适配华为Mate XT非凡大师

台风“摩羯”后，邮储银行金融服务暖人心

企业长跑“邮”搭档

“智慧服务”亮相服贸会文旅展区

安徽宁国：“机器换人”促亩均效益提升

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响