在与 AI 聊天机器人的互动中,你总能从它们身上找到一些人类性格的影子。
GPT-4 显得懒散寡言,Claude 3 热情且注重细节,Grok 则喜欢阴阳怪气,还略显愚蠢。而这些聊天机器人的性格差异,其实也映射了它们在能力上的特长。
虽然大多数模型依然被 GPT-4 无情碾压,但仍有少数大模型放弃追求「面面俱到」,专注于挖掘自己的独特优势。
最近,国内大模型厂商 Moonshot AI(月之暗面)宣布 Kimi 智能助手实现了技术突破,将无损长上下文长度提升至 200 万字,并已启动产品「内测」。
伴随着热度的上升,昨日下午,Kimi 在连续五次扩容之后,依然一度出现宕机的情况。截至发稿前,Kimi 已经飙升至 App Store 免费版应用的第六名,甚至超越了微信。
比罗贯中还懂《三国演义》
那上新后的 Kimi 助手实际测试的效果如何呢?我们也第一时间获得了体验资格。
Kimi 体验地址:https://kimi.moonshot.cn/
我们先让 AI 来测试 AI。 基于原版《三国演义》(80 万字左右)的文本,我们让 ChatGPT 提出了一些测试问题👇
逻辑和推理:赤壁之战前,周瑜和诸葛亮之间的互动表明了什么样的战略意图和心理战术?
人物关系和事件查询:桃园三结义具体发生在哪一回?
事件时间线:请概述刘备、关羽、张飞三兄弟的结义到关羽被杀这一段历史的时间线。
角色观点与情感:赤壁之战失败后,曹操的心态和情绪如何?他是怎样评价这次失败的?
综合分析:基于全书,分析曹操、刘备、孙权三人的领导风格和政治策略的异同。
向左滑动查看更多内容
我们也帮各位测试过了,如果上传文档超过 200 万字,只会得到解析失败的结果。所以我们只节选了鲁迅全集的第二卷。
接着我们给 Kimi 上亿点点强度,难度也是从低到高。问题如下:
问题:文档中提到,在鲁迅的后园,可以看见墙外有两株树,一株是枣树,那请问另一株是什么树?
为了验证它给出的回答是否是实时联网的,我们需要它指出准确的页面。
问题:请问下文出现在文档中的第几页:在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树。
我们还设置了一个陷阱,谎称在 199 页(实际在 166 页),不出所料,它成功掉进陷阱。
向左滑动查看更多内容
我们摘录了乔布斯 2005 年在斯坦福大学的演讲文稿,并让其整理为词汇表,看看效果如何?
向左滑动查看更多内容
月之暗面官方也分享了许多实用的玩法。例如,上传一份完整的近百万字中医诊疗手册,让 Kimi 针对问题给出诊疗建议。
上传一个代码仓库里的源代码,让它快速梳理出代码的结构。
「喂给」Kimi 甄嬛传剧本,让它化身「甄学家」。
登月第一步,人类一大步?
Kimi 背后的月之暗面,虽然成立只有一年,但在 AI 创投圈已经颇具名气。
去年六月,The information 盘点了五家最有可能成为中国版 OpenAI 的公司,月之暗面位列其中。
创立之初,月之暗面便完成了首轮融资,筹集资金超过 2 亿美元。最新消息称,该公司完成了新一轮超 8 亿美元的融资,其中阿里投资了 7.9 亿美元,砺思资本投资 1000 万美元,创下了国内 AI 大模型公司单轮融资金额的新高。
与其他大模型创企相比,月之暗面的创始人杨植麟是业界内罕见拥有扎实技术背景的创业者。
他在 2015 年从清华计算机系毕业后,便前往美国卡内基梅隆大学攻读博士学位,并成为了两位 AI 领域巨擘——苹果 AI 研究负责人 Ruslan Salakhutdinov 和 Google 首席科学家 William Cohen 的学生。
在攻读博士学位的过程中,杨植麟以第一作者的身份,成功发表了 Transformer-XL 和 XLNet 这两个重要的研究项目。
前者主要意义在于它显著提升了 Transformer 模型在处理长序列数据时的能力,使其成为了首个在性能上全面超越传统递归神经网络(RNN)的模型,而后者也在 Transformer-XL 的基础上进一步改进,并在多个自然语言处理任务上取得了领先的性能。
杨植麟曾公开阐述过 Moonshot AI 这一公司名称的由来,恰好在公司成立的同一天,Pink Floyd 专辑《Dark Side of the Moon》 迎来了 50 周年纪念日。同时,「月之暗面」象征着神秘、好奇和向往,但登月是一件充满挑战的事情。
大模型「登月计划」的第一步便是长文本技术,杨植麟曾多次在公开场合表达过类似的观点。
在接受媒体采访时,杨植麟将长文本技术比作一种新的计算机内存,在他看来,老的计算机内存在过去几十年涨了好几个数量级,同样的事也会发生在新的计算机上。
它能解决很多现在的问题。比如,现在多模态架构还需要 tokenizer(标记器),但当你有一个无损压缩的 long context 就不需要了,可以把原始的放进去。
进一步讲,它是把新计算范式变成更通用的基础。旧的计算机可以 0、1 表示所有,所有东西可被数字化。但今天新计算机还不行,context 不够多,没那么通用。要变成通用的世界模型,是需要 long context 的。
月之暗面旗下的 Kimi 深刻体现了这一理念。
在一众顶尖模型只能处理十万以内的中文文本输入时,Kimi 就已经可以处理高达 20 万字的超长文本输入。当时,月之暗面还借鉴了「大海捞针」的实验方法,实现了「全绿」的效果。
半年后的今天,Kimi 的处理能力便从 20 万字跃升至 200 万字。
据官方披露的信息,为了达到更好的长窗口无损压缩性能,月之暗面的研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走「滑动窗口」、「降采样」等技术捷径,攻克了很多底层技术难点。
同时在月之暗面的愿景中,大模型无损上下文长度的数量级提升,将极大拓展 AI 应用场景的想象力,包括完整代码库的分析理解、能够自主执行多步骤复杂任务的智能体 Agent、不会遗忘关键信息的终身助理,以及真正统一架构的多模态模型等。
成为专家只需要 10 分钟
综合体验来看,相较于其他大模型,Kimi 的优势在于实时联网功能和文件处理能力。
Google 可以给你 10 万个答案,但是,一个图书管理员可以给你最为精准的答案。
六年前,英国作家尼尔·盖曼如此说道。在信息泛滥的互联网时代,精准定位信息成为了一种稀缺的常态。
如果你是忙于案头工作的打工人,或许对于这一点深有感触。
类似于 Perplexity AI,Kimi 的实时联网功能在搜索中文语料库上表现出色,能够迅速地总结概括信息,并提供参考资料,在上传文件或网址后,Kimi 还会自动关闭联网模式,这一点值得好评。
得益于长上下文技术的加持,Kimi 的文件处理能力则是其第二个优势。
正如 Kimi 主页上反复出现的标语:「别焦虑,Kimi 帮你整理资料。」对于那些需要处理大量文档信息的用户,Kimi 提供了简化工作流程的有效途径。
倘若你是科研工作者,你可以选择将数十篇论文甩给 Kimi,通过提示词让它帮你总结一番,便可以省去你许多功夫。
当然,既然要让 AI 替我们打工,那总结还只是小儿科。 美国作家格拉德威尔曾在《异类》中提出了一万个小时定律:
我们眼中的天才之所以卓越非凡,并非天资超人一等,而是付出了持续不断的努力。1 万小时的锤炼是任何人从平凡变成世界级大师的必要条件。
月之暗面则提出了「Kimi 10 分钟速成定律」。在过去要 10000 小时才能成为专家的领域,现在只需要 10 分钟,Kimi 就能通过「填鸭蛋」式的资料灌输,达到接近任何一个新领域的初级专家水平。
换言之,像 Kimi 这类的生成式 AI 工具的出现,实际上革新了繁琐的「阅读」过程,使得人类能够直接跃升至思考的层面。
1878 年,亚历山大·格拉汉姆·贝尔成功地在波士顿和纽约之间进行了第一次长途电话实验,并取得了成功。 此后电话网络逐渐连接了美国各大城市,乃至跨越大洋。
电话的出现让远距离沟通变得即时而亲切,人们一旦习惯了声音的即时传递,书信的等待与缓慢就显得格外古老。
如今,我们面临的 AI 时代也是如此,当 AI 工具成为了我们手中的「电力」,一旦体验过它的便利,就很难想象回到没有它的生活。