出品 | 搜狐科技
作者 | 梁昌均
近日,资本市场的Kimi概念爆火,多只传媒股持续大涨,华策影视、掌阅科技、中广天择、慈文传媒等概念股因此连续拉出三个涨停。
这背后是由一款叫Kimi的大模型产品催化,其是国内大模型初创公司月之暗面发布的一款面向C端的大模型产品。
早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。
市场的火爆,导致Kimi服务器一度瘫痪,无法回复用户诉求。对此,月之暗面称已多次采取扩容等措施保证流量异常增高后的稳定,这对Kimi推理算力、成本等也构成挑战。
实际上,长文本能力已是国内外大模型追逐热点。复旦大学计算机科学技术学院教授张奇对搜狐科技表示,很多大模型仅停留在长度和简单的事实检索能力方面,在更加重要的阅读理解和推理能力方面还有待加强。
上下文从20万到200万,Kimi半年内访问量或暴增55倍
Kimi所在公司月之暗面是目前国内估值最高的大模型独角兽公司,其成立于2023年3月,目前已完成两轮总额90亿元的融资。去年6月,月之暗面获得3亿美金融资,投资方包括红杉中国、真格基金。
今年2月,该公司又获得新一轮超10亿美金融资,投资方包括红杉中国、小红书、美团、阿里等,这是国内大模型公司获得的单轮最大金额融资,最新估值达25亿美元。
月之暗面创始人杨植麟是一位本科毕业于清华、博士毕业于卡内基梅隆大学的90后,先后师从清华教授唐杰,以及苹果AI负责人、深度学习奠基人之一Ruslan Salakhutdinov,是国内大模型浪潮中典型的技术派,信仰Scaling law(规模定律)。
去年10月,月之暗面推出基于千亿参数大模型、首个面向C端的产品Kimi智能助手(Kimi Chat),当时支持20万汉字的长文本输入。不到半年,Kimi的上下文窗口的支持能力就达到200万字。
这意味着,Kimi的上下文支持能力显著提升,可以一口气读200万字,相当于近三本《红楼梦》、14本《民法典》,或上千份简历,并可以根据用户需求,通过自然语言进行信息查询和筛选,提高信息处理效率,对需要整理查阅大量资料的人来说可以说是一大神器。
搜狐科技注意到,目前Kimi在网页端、移动端、小程度等都有布局,支持TXT、PDF、Word 、PPT 和 Excel等多种类型文件、图片,以及网址输入,并能够支持多文件、多个网址,小程序则支持语音输入等。同时,Kimi也实现联网,在缺乏信息时会调用搜索引擎的网页,从而保证信息的准确性。
搜狐科技以近日OpenAI CEO山姆·奥特曼(Sam Altman)接受莱克斯·弗里德曼(Lex Friedman)采访的万字长文实测,输入文章网址,并要求整理出文章核心观点和所在原文,支持20万长度的Kimi基本能理解指令要求,并就话题和观点、原文,在不到十多秒内就进行了输出。
就此实测通义千问,其也给出9个类似的观点总结,但对指令的理解似乎有些问题,仅第一个观点附出原文,其它原文举例在放在后面,且并不完整。因此就该案例来看,通义千问整体完成度不及Kimi,在响应时间上也相对较慢。
同时,Kimi可以指迅速找出指定的内容“伊利亚和小狗在玩的内容在哪里”,并对“奥特曼怎么看”进行了理解,还算准确。通义千问并未给出原文内容,但理解也比较准确。
不少网友实测反馈,在处理大量发票并进行分类和问答时,Kimi表现出更强的操作能力,对多篇论文总结时也有显著优势,而GPT-4表现不如Kimi精准。有调用Kimi的上市公司因赛集团表示,经其内部初步评测,Kimi中文处理能力接近ChatGPT 4 Turbo。
根据月之暗面发布的实测案例,将《甄嬛传》全集几十万字的剧本传给升级后的 Kimi,然后提问剧本中有哪些细节表明甄嬛的孩子是果郡王的。Kimi能在不同时间段、各个场景的故事情节中,深入挖掘甄嬛、果郡王的情感线以及和他们孩子的真相,堪比一个看了好几十遍电视剧的“甄”学家。
此外,有拿到Kimi上下文升级到200万内测资格的业内人士测试了《诛仙》《红楼梦》等小说有关的问题,表示“强的离谱”,认为模型能力可以没那么强,但是一定要有特色、有差异化,而Kimi的200万字是产品真正的刚需。
这背后则是Kimi技术的不断升级,而月之暗面并没有采用常规的渐进式提升路线。搜狐科技此前从百川智能方面了解到,目前业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。
这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。因此,如何在提高上下文支持长度的同时,保证处理能力的提升是目前业界的一大难点。
月之暗面表示,为了达到更好的长窗口无损压缩性能,技术研发团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走滑动窗口、降采样等技术捷径,攻克了很多底层技术难点。
此外,月之暗面提到,为提高无损上下文能力,还在指令遵循上进行了优化,让模型在多轮对话中能够始终遵循用户的指令,理解用户的需求,并可以遵循复杂指令。从用户反馈来看,Kimi的多轮交互和超长指令遵循能力也是一项核心优势。
这也让Kimi在上市后吸引了大量用户关注。据SimilarWeb数据,从去年10月到今年2月,Kimi访问量从16万增长到292万,仅次于文心一言和阿里通义,而从3月1日至3月18日的日均访问量超24万。同时,Kimi APP端下载量也快速提升,从2月初的效率类应用免费榜119名提升至3月20日的第10名,仅次于豆包与文心一言。
据非凡产研预测,Kimi在今年3月的访问量将介于750万到900万之间,意味着Kimi访问量在半年内有望暴增达55倍。
Kimi的爆火,也让其服务器一度奔溃。月之暗面在3月21日晚间表示,自3月20日9:30开始,观测到Kimi的系统流量持续异常增高,远超对资源的预期规划,导致有较多的SaaS客户遇到登陆异常问题,部分用户还遇到“Kimi忙不过来了”、“Kimi有点累了”等回复。
该公司表示,已经采取多项应急措施,包括已经进行5次扩容工作,保证推理资源会持续配合流量进行扩容,以尽量承载持续增长的用户量,同时设计一套更有效的SaaS流量优先级策略,以保障付费用户的调用稳定,预计3月25日前完成上线。
公开信息显示,Kimi的算力支持主要来自字节火山引擎,以英伟达为主,预训练需要1万多张卡。随着用户大量涌入,Kimi也需要更多推理算力支撑,这也意味着更高的成本投入。目前,Kimi网页端、移动端和小程序端都可正常使用。
国内外大模型都在卷长文本,但只卷数值没有意义
实际上,过去一段时间,国内外大模型都在卷超长文本的上下文窗口能力。
复旦大学计算机科学技术学院教授张奇对搜狐科技表示,大模型受限于输入长度,其在处理超长文本时面临挑战,难以进行更好完成生成和推理任务。因此,多家大模型公司都在拓展大模型的上下文长度。
去年10月,百川智能推出上下文窗口长度为192K的Baichuan2-192K,相当于35万个汉字,是当时全球最长的上下文窗口。阿里通义千问不久前推出免费的文档解析功能,针对单个文档能够处理超万页的极长资料,换算成中文篇幅约1000万字,同时支持100份不同格式的资料,还可解析在线网页。
GPT-3.5通过三次升级将上下文从4000token扩展到1.6万token,GPT-4达到32K,而GPT-4Turbo进一步提升到128K token,相当于10万汉字能力。有报道称,今年发布的GPT-4.5 Turbo的上下文窗口被设定为25.6万token,相当于约20万汉字的处理能力。
Anthropic最新推出的Claude 3的上下文从100K升级到200K token,相当于能够单次处理约16万汉字,并在测试该能力的大海捞针实验中实现对GPT-4的超越。开源模型LLaMA则从2K、4K持续升级到32K、256Ktoken。
在杨植麟看来,无损的长上下文将是AGI一个很关键的基础技术,是AGI登月工程的第一步。“上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化。”
张奇认为,AGI最核心的就是要具备语言知识、推理学习的能力。“千亿模型可能记住10万本书,万亿模型可能记住100万本书,但如果不能构建出来推理能力,那就是一个知识的压缩器和检索器,就不可能实现AGI。”
“但长文本其实很难做,它不仅要能检索出基本事实的知识,更重要的是还要能做阅读理解,做归纳总结,但现在很多大模型这种能力大幅度下降。”张奇认为,光看长度没什么意义,很多模型的长度就是纯属宣传性。
杨植麟此前也在接受采访时表示,在以Scaling law(规模定律)为第一性原理的情况下,不能只提升窗口,不能只看数字,要看它在这个窗口下能实现的推理能力、对原始信息忠实度的能力,以及遵循指令的能力,不应该只追求单一指标,而是结合指标和能力。
目前,业内对大模型长文本的能力都基本采用国外开发者Greg Kamradt设计的测评方法“Needle in A HayStack”,即“大海捞针”。
张奇对此表示,传统的“大海捞针”评测有一个很大的问题是就是,针和海如何配置非常关键,如果选一些特殊的针和海,那结果可能就会很高,因此需要相对科学的评测方法,且要将重点从简单的事实检索转移到更具挑战性的阅读理解任务。
目前,Kimi是国内少数不刷榜单的大模型“清流”。杨植麟表示,很多榜存在问题,刷榜意义很小,最好的榜就是用户,应该让用户投票。
不过,Kimi还能火爆多久面临不确定性,且有观点认为其技术门槛并不是特别高,随着多个大模型都纷纷发力,其也会面临越来越激烈的竞争。对于主攻C端的月之暗面来说,则需要更多投入,保持技术的领先和用户的增长,从而构建起商业化的能力。