Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模型都在卷上下文

作者：搜狐科技发布时间：2024-03-22

文心一言

出品 | 搜狐科技

作者 | 梁昌均

近日，资本市场的Kimi概念爆火，多只传媒股持续大涨，华策影视、掌阅科技、中广天择、慈文传媒等概念股因此连续拉出三个涨停。

这背后是由一款叫Kimi的大模型产品催化，其是国内大模型初创公司月之暗面发布的一款面向C端的大模型产品。

早前，该公司宣布在大模型长上下文窗口技术上取得新的突破，Kimi已支持200万字超长无损上下文，并开启产品内测，该能力在不到半年内提升9倍。

市场的火爆，导致Kimi服务器一度瘫痪，无法回复用户诉求。对此，月之暗面称已多次采取扩容等措施保证流量异常增高后的稳定，这对Kimi推理算力、成本等也构成挑战。

实际上，长文本能力已是国内外大模型追逐热点。复旦大学计算机科学技术学院教授张奇对搜狐科技表示，很多大模型仅停留在长度和简单的事实检索能力方面，在更加重要的阅读理解和推理能力方面还有待加强。

上下文从20万到200万，Kimi半年内访问量或暴增55倍

Kimi所在公司月之暗面是目前国内估值最高的大模型独角兽公司，其成立于2023年3月，目前已完成两轮总额90亿元的融资。去年6月，月之暗面获得3亿美金融资，投资方包括红杉中国、真格基金。

今年2月，该公司又获得新一轮超10亿美金融资，投资方包括红杉中国、小红书、美团、阿里等，这是国内大模型公司获得的单轮最大金额融资，最新估值达25亿美元。

月之暗面创始人杨植麟是一位本科毕业于清华、博士毕业于卡内基梅隆大学的90后，先后师从清华教授唐杰，以及苹果AI负责人、深度学习奠基人之一Ruslan Salakhutdinov，是国内大模型浪潮中典型的技术派，信仰Scaling law（规模定律）。

去年10月，月之暗面推出基于千亿参数大模型、首个面向C端的产品Kimi智能助手（Kimi Chat），当时支持20万汉字的长文本输入。不到半年，Kimi的上下文窗口的支持能力就达到200万字。

这意味着，Kimi的上下文支持能力显著提升，可以一口气读200万字，相当于近三本《红楼梦》、14本《民法典》，或上千份简历，并可以根据用户需求，通过自然语言进行信息查询和筛选，提高信息处理效率，对需要整理查阅大量资料的人来说可以说是一大神器。

搜狐科技注意到，目前Kimi在网页端、移动端、小程度等都有布局，支持TXT、PDF、Word 、PPT 和 Excel等多种类型文件、图片，以及网址输入，并能够支持多文件、多个网址，小程序则支持语音输入等。同时，Kimi也实现联网，在缺乏信息时会调用搜索引擎的网页，从而保证信息的准确性。

搜狐科技以近日OpenAI CEO山姆·奥特曼（Sam Altman）接受莱克斯·弗里德曼（Lex Friedman）采访的万字长文实测，输入文章网址，并要求整理出文章核心观点和所在原文，支持20万长度的Kimi基本能理解指令要求，并就话题和观点、原文，在不到十多秒内就进行了输出。

就此实测通义千问，其也给出9个类似的观点总结，但对指令的理解似乎有些问题，仅第一个观点附出原文，其它原文举例在放在后面，且并不完整。因此就该案例来看，通义千问整体完成度不及Kimi，在响应时间上也相对较慢。

同时，Kimi可以指迅速找出指定的内容“伊利亚和小狗在玩的内容在哪里”，并对“奥特曼怎么看”进行了理解，还算准确。通义千问并未给出原文内容，但理解也比较准确。

不少网友实测反馈，在处理大量发票并进行分类和问答时，Kimi表现出更强的操作能力，对多篇论文总结时也有显著优势，而GPT-4表现不如Kimi精准。有调用Kimi的上市公司因赛集团表示，经其内部初步评测，Kimi中文处理能力接近ChatGPT 4 Turbo。

根据月之暗面发布的实测案例，将《甄嬛传》全集几十万字的剧本传给升级后的 Kimi，然后提问剧本中有哪些细节表明甄嬛的孩子是果郡王的。Kimi能在不同时间段、各个场景的故事情节中，深入挖掘甄嬛、果郡王的情感线以及和他们孩子的真相，堪比一个看了好几十遍电视剧的“甄”学家。

此外，有拿到Kimi上下文升级到200万内测资格的业内人士测试了《诛仙》《红楼梦》等小说有关的问题，表示“强的离谱”，认为模型能力可以没那么强，但是一定要有特色、有差异化，而Kimi的200万字是产品真正的刚需。

这背后则是Kimi技术的不断升级，而月之暗面并没有采用常规的渐进式提升路线。搜狐科技此前从百川智能方面了解到，目前业内有很多提升上下文窗口长度的方式，包括滑动窗口、降采样、小模型等。

这些方式虽然能提升上下文窗口长度，但对模型性能均有不同程度的损害，换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。因此，如何在提高上下文支持长度的同时，保证处理能力的提升是目前业界的一大难点。

月之暗面表示，为了达到更好的长窗口无损压缩性能，技术研发团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发，不走滑动窗口、降采样等技术捷径，攻克了很多底层技术难点。

此外，月之暗面提到，为提高无损上下文能力，还在指令遵循上进行了优化，让模型在多轮对话中能够始终遵循用户的指令，理解用户的需求，并可以遵循复杂指令。从用户反馈来看，Kimi的多轮交互和超长指令遵循能力也是一项核心优势。

这也让Kimi在上市后吸引了大量用户关注。据SimilarWeb数据，从去年10月到今年2月，Kimi访问量从16万增长到292万，仅次于文心一言和阿里通义，而从3月1日至3月18日的日均访问量超24万。同时，Kimi APP端下载量也快速提升，从2月初的效率类应用免费榜119名提升至3月20日的第10名，仅次于豆包与文心一言。

据非凡产研预测，Kimi在今年3月的访问量将介于750万到900万之间，意味着Kimi访问量在半年内有望暴增达55倍。

Kimi的爆火，也让其服务器一度奔溃。月之暗面在3月21日晚间表示，自3月20日9:30开始，观测到Kimi的系统流量持续异常增高，远超对资源的预期规划，导致有较多的SaaS客户遇到登陆异常问题，部分用户还遇到“Kimi忙不过来了”、“Kimi有点累了”等回复。

该公司表示，已经采取多项应急措施，包括已经进行5次扩容工作，保证推理资源会持续配合流量进行扩容，以尽量承载持续增长的用户量，同时设计一套更有效的SaaS流量优先级策略，以保障付费用户的调用稳定，预计3月25日前完成上线。

公开信息显示，Kimi的算力支持主要来自字节火山引擎，以英伟达为主，预训练需要1万多张卡。随着用户大量涌入，Kimi也需要更多推理算力支撑，这也意味着更高的成本投入。目前，Kimi网页端、移动端和小程序端都可正常使用。

国内外大模型都在卷长文本，但只卷数值没有意义

实际上，过去一段时间，国内外大模型都在卷超长文本的上下文窗口能力。

复旦大学计算机科学技术学院教授张奇对搜狐科技表示，大模型受限于输入长度，其在处理超长文本时面临挑战，难以进行更好完成生成和推理任务。因此，多家大模型公司都在拓展大模型的上下文长度。

去年10月，百川智能推出上下文窗口长度为192K的Baichuan2-192K，相当于35万个汉字，是当时全球最长的上下文窗口。阿里通义千问不久前推出免费的文档解析功能，针对单个文档能够处理超万页的极长资料，换算成中文篇幅约1000万字，同时支持100份不同格式的资料，还可解析在线网页。

GPT-3.5通过三次升级将上下文从4000token扩展到1.6万token，GPT-4达到32K，而GPT-4Turbo进一步提升到128K token，相当于10万汉字能力。有报道称，今年发布的GPT-4.5 Turbo的上下文窗口被设定为25.6万token，相当于约20万汉字的处理能力。

Anthropic最新推出的Claude 3的上下文从100K升级到200K token，相当于能够单次处理约16万汉字，并在测试该能力的大海捞针实验中实现对GPT-4的超越。开源模型LLaMA则从2K、4K持续升级到32K、256Ktoken。

在杨植麟看来，无损的长上下文将是AGI一个很关键的基础技术，是AGI登月工程的第一步。“上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。”

张奇认为，AGI最核心的就是要具备语言知识、推理学习的能力。“千亿模型可能记住10万本书，万亿模型可能记住100万本书，但如果不能构建出来推理能力，那就是一个知识的压缩器和检索器，就不可能实现AGI。”

“但长文本其实很难做，它不仅要能检索出基本事实的知识，更重要的是还要能做阅读理解，做归纳总结，但现在很多大模型这种能力大幅度下降。”张奇认为，光看长度没什么意义，很多模型的长度就是纯属宣传性。

杨植麟此前也在接受采访时表示，在以Scaling law（规模定律）为第一性原理的情况下，不能只提升窗口，不能只看数字，要看它在这个窗口下能实现的推理能力、对原始信息忠实度的能力，以及遵循指令的能力，不应该只追求单一指标，而是结合指标和能力。

目前，业内对大模型长文本的能力都基本采用国外开发者Greg Kamradt设计的测评方法“Needle in A HayStack”，即“大海捞针”。

张奇对此表示，传统的“大海捞针”评测有一个很大的问题是就是，针和海如何配置非常关键，如果选一些特殊的针和海，那结果可能就会很高，因此需要相对科学的评测方法，且要将重点从简单的事实检索转移到更具挑战性的阅读理解任务。

目前，Kimi是国内少数不刷榜单的大模型“清流”。杨植麟表示，很多榜存在问题，刷榜意义很小，最好的榜就是用户，应该让用户投票。

不过，Kimi还能火爆多久面临不确定性，且有观点认为其技术门槛并不是特别高，随着多个大模型都纷纷发力，其也会面临越来越激烈的竞争。对于主攻C端的月之暗面来说，则需要更多投入，保持技术的领先和用户的增长，从而构建起商业化的能力。

Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模型都在卷上下文

推荐体验

相关资讯

Kimi产品4月访问量已超文心一言

机构：Kimi产品4月访问量已超文心一言

KIMI爆了！对比文心一言和通义千问它到底有多强？

文心一言：难以理解上下文，及一个猜测

百度文心一言和阿里通义千问对比

近期资讯

普通人看见普通人：当探店博主走上台前

2025年怎么走，这份报告让家居企业更早抄到答案

厦门国贸“退房”，终于走到尾声了

不只是恋爱，女性向游戏开始洗牌

大模型2024：从 “烧钱” 到 “赚钱” 的急转弯

贵圈必修“番位学”，到底利好了谁？

华夏大悦城商业REIT：魏学问接替田维龙出任大悦城运管董事长

热度与口碑倒挂，《冬至》做错了啥？

海尔生物“蛇吞象”，拟吸收合并上海莱士，公司回应

75亿，深圳福田杀出一个智驾明星IPO

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响