OpenAI o1 发布到现在,都快一个月了, 但它给 AI 圈带来的震撼和影响,其实才刚刚开始。
反正圈内的不少大佬,直接就给 o1 来了一顿猛猛夸。 大模型拆解用户提问的能力,还有深度思考的能力,已经成了大伙们卷的一个新方向。
但与此同时,就像在等《 黑神话 · 悟空 》发售一样,不少网友也和差评君一样猴急,盼着国内的大模型们,何时能有类似的产品出现。
也有差友在公众号后台,一直私信,表示自个都被 o1 钓成翘嘴了,现在是吃不饱、睡不香,只想在国内也用到类似深度思考的功能。
然而这一次,差评君发现还真有人给整出来了。。。
它便是年初,才刚掀起圈内长文本竞赛的 Kimi ,而这次他们发布的 Kimi 探索版,可以模拟人类的推理思考过程,自主分解复杂问题进行深度搜索,还加上了即时反思的功能,帮助用户完成分析调研。
更重要的,这次探索版,搜索量达到了普通版的 10 倍,一次搜索甚至可以精读 500 个页面。
翻译一下,以前我们向 AI 提出复杂的提问,得在脑子里把预想的问题人为拆一下,让 AI 一个一个答。而现在,不仅解放了双手,还可以一次穷尽更多信源, 只需想好问题, Kimi 就会像个分析师一样来为你服务。
难怪产品负责人说, “ 如果 Kimi 搜不到的信息,大概率用户也很难自己通过传统搜索引擎找到答案 ” 。
今天一大早, Kimi 探索版在 PC 端开始了灰度测试,据说手机端很快就会上。
结果,用户的火爆很快把 “ Kimi 崩了 ” 送上热搜。
官方也很快发了致歉公告, 并预告一下大概在周一,探索版的功能就会全量开放。
先给前段时间断了网的差友们,用几句话简单介绍一下 Kimi 的来头。
这么说吧,差评君愿意把它称之为国产大模型的一束光,光是在 PC 网页端,今年以来 Kimi 的月访问量就从 140 多万涨到 2400 多万,增长了 1670 % 。
爆火到他们服务器一度宕机。资本市场,甚至还炒作起了 Kimi 概念股。。。
这次发布的 Kimi 探索版,某些方面其实和 OpenAI o1 有点类似,那就是会解难题、懂思考了,但差评君觉得,它和 o1 还是有不少差异的。 其中最大的不同,便是在使用场景上。
OpenAI o1 主打的,是能回答博士级别的问题,解比如物理、数学、生物上的难题等等。不过也因为这儿,差评君当时在用上 o1 的第一时间,其实憋了好几个题目没敢问。
毕竟 Preview 版本一周只能提问 40 个问题,我生怕问得简单了,配不上博士级别的模型,浪费了额度。。。
好在差评君靠人脉,找来了好几位博士, 和他们联手和砍拿下三双给 o1 上了一波压力。当然,最后博士们对 o1 的评价,也是相当高。
而这次 Kimi ,则选择了另外一条更实用、更 接地气的道路,那就是把思考和拆解问题的劲儿,聚焦在是和咱们普通人更近的生产力场景上,尤其是大学生、上班族们常干的调研分析类任务。
在体验了一番之后,我的评价是,如果 AI 也有 MBTI 的话: 那它活脱脱就是一个思维和计划缜密 & 执行力强的 J 人。
首先,差评君发现, Kimi 探索版在解答问题时,真就和人思考时一个样。
它会拆解长难提问,自己规划解答思路,最后分步骤并执行任务。
就比如说国庆假期一过,在座的各位巴菲特们,估计股票账户里都是一片红。
差评君给 Kimi 探索版的第一题便是: 如果我们在 5 年前,分别花了 10 万人民币,买入了比亚迪股票、茅台股票、还有黄金,现在它们分别价值多少?
说实话,这题对咱们普通碳基生物而言,其实并不复杂,主要就是步骤有点多,得花个小几分钟才能算清楚。
而 Kimi 探索版把差评君的问题,成功拆解成了三步:先分别查 5 年前的价格,再查当天的价格,最后计算并制表。
Kimi 也是三下五除二,在一分钟不到的时间内,一步步得出了结果。
差评君也才知道,《 只 》要在 5 年前买入 10 万人民币的比亚迪股票,这会儿已经价值 70 多万了。
其实类似的问题,差评君其实也甩个隔壁的 Perplexity 试了试。。。但且不说表格没画清楚了,它抓取的五年前的股票和黄金价格,相比实际价格都偏差了不少。
它的表现,我只能说 not even wrong 。
大概清楚了 Kimi 探索版能力的深浅之后,差评君也立马给 Kimi 上了一波难度。
说实话,出去玩儿的时候,攻略往往是最烧脑和最让人头疼的了。
于是我的第二问便是:帮我查询 9 月北京环球影城各个游乐项目,在一天不同时段的平均排队时长,列出表格,再根据这个设计一条耗费排队时间最少的游玩路线。
光是看到这个题面,我就感觉自个儿的头发在不停地掉。。。
Kimi 则依旧稳如老狗,给出了搜游乐项目、搜索平均排队时长、设计路线这三步走的思考过程,并在阅读了 53 个网页后,按步骤来了一波解题。
最后的结果,也还真是井井有条。
相同的问题,差评君也在其他几款主流的 AI 助手里试了试,而我看到最多的两个字,却是 “ 抱歉 ” 。。。
随后,我也趁热打铁,给 Kimi 整上了网上那些让人抓狂的咨询机构面试题。
其实这类题目,往往都没有绝对的正确答案,它们考察的就是应聘者临场的逻辑思维、数据分析、问题解决和沟通表达能力。
大伙们也可以看一看 Kimi 的回答,能不能让在座的各位面试官们信服。
问题:中国 2023 年的社会用电总量如果都用太阳能发电,需要多少平米的太阳能板,面积相当于几个足球场?
问题:如果所有钢琴都定期调律,估算一下北京需要多少名全职的钢琴调律师?
除了拆解和解决问题的能力,差评君还发现, Kimi 探索版在信息的大量收集方面,简直就是启动了 V8 引擎, 突出的就是一个马力十足,能一次搜索几十个关键词,阅读几百个网页。
就比如说,诺贝尔奖正在陆续颁奖中,如果让一个普通的碳基生物,汇总一下近十年所有诺贝尔物理学奖得主的姓名、生卒年月、还有国籍,并且统计出他们的平均获奖年龄。
反正看到这活儿,差评脑袋里已经出现浏览器被几十上百个网页塞满、电脑开始卡顿的画面了。
而同样的问题交给 Kimi ,在短短不到 1 分钟的时间内, AI 一次性搜索了几十个诺贝尔奖得主的信息,并且阅读了 200 多个网页,从中汇总出来咱们想要的信息。
最后 Kimi 也是沉着冷静,给出了计算结果:近十年诺贝尔物理学奖得主的平均得奖年龄,在 75 岁前后。
而 “ 在 2024 年《 财富 》中国科技 50 强企业中,哪些公司的总部在北京? ” 这个问题中,差评还发现了个有趣的现象,那就是 Kimi 正答着题目呢,自个儿就开始反思了。。。
在反思一番后,又补充上了两个答案。
要是差评君当年高考时,也这么严谨地验算,这会儿应该不是个律师就是个医生了吧。
另外差评君觉得,其实很多时候,咱们还有很多模糊搜索的需求。
特别是熬夜看球、通宵打游戏了之后,经常记性不太好,常常连问题本身都记不太清了。。。
就比如前段时间,差评君想找个数学家的资料,但他的名字感觉就在我嘴边,但却死活想不出具体名字。只依稀记得了几个特征,那就是:属于欧洲的一个家族,哥哥、弟弟、父亲都是数学家,他们互相之间还嫉妒彼此。
结果 Kimi 立马就成功发现,我要找的是数学家伯努利,还顺带把他们的 “ 族谱 ” 的都列出来了。
同样 Kimi 也在答题时,也进入了反思和补充环节,给回答又加了亿点点细节。
提问:欧洲有一个家族,哥哥、弟弟、爸爸都是数学家,他们互相之间还嫉妒彼此,这个家族叫啥名字?展示一下他们各自的成就。
包括有时候记不起具体的公司名,咱只要还记得一些故事和细节,也能顺畅地搜索。
问题:上个世纪有个硅谷公司,做过类似 iPhone 的产品,这个公司叫什么,这个公司的早期员工后来参与了哪些重要公司的创立。
总的来说,综合体验一波 Kimi 探索版后,差评君觉得 AI 帮助用户解决的问题范围,有了指数级扩展,真的多了一位可以帮着快速收集、调研和分析的私人助理。对 传统搜索来说,也是一种颠覆。
说实话,从年初 Kimi 掀起的长文本竞赛,咱就不难看出,其实除了那些 Benchmark 分数、排行榜,普通用户最在意的,还是大模型到底能给大伙们解决怎样的痛点。
毕竟有了真正好用的工具,才好在发现和创造过程中,探索更大的世界。
所以 Kimi 探索版,真的让我回不去了。
撰文:江江
编辑:江江
美编: 萱萱
图片、资料来源:
Kimi 官网 、Kimi 官微