GPT这种“预训练语言生成模型”,是通过“语言概率”来猜词的,实际上它并不具备“智能”,它只是大概念“猜”得比较准、看起来像是人话而已。
业内很多大专家都持有这样的观点:
真正的“人工智能”不应该主要通过语言概率模型来猜的,而是应该真正会“思考”和“推理”!
这就是下一代人工智能程序的目标。
让人震惊的是:一个月前, OpenAI发布了最新一代人工智能程序o1,通过“强化学习”机制(类似于alphaGo),已经变得 AI像人类那样,能够自行开展思考、推理!
(可参见:【直播录像】最先进的AI:OpenAI o1使用体验(李泽) )
据OpenAI的内部测评,o1采用了类似人类“慢思考”的机制,已经在科学问题解决领域,超过人类博士水平了(如下右图)!
这太了不起了!
不过,一个大麻烦却是:
o1在国内却访问不了,即便能访问也需要付费
咱们普通老师用不上啊!
王珏老师一直在期盼:
咱们国内大模型,啥时候也能像o1那样
能开展真正的“思考”、“推理”呢?!
没成想,今天我突然看到Kimi 推出了 “探索”模式
能够像o1那样开展“慢思考”了!
于是,王珏老师在第一时间试用、体验。
体验报告如下:
【进入方式】
在Kimi对话框底部,有一个“探索版”的选项,点一下即可进入“慢思考”模式(根据提示,一天只能用5次)
体验一:综合性问题+资料搜索+答案整合(文科性质)
【体验用提示词】
作为体验,当然要给Kimi点“颜色”看看,既要综合、又要模糊、还得带点未来预测、批判思考,考察一下Kimi的思考过程和结论质量如何。
我在Kimi中输入了如下提示词:
批判性思考: AI已经具备了较强的思考能力,堪比人类博士水平。请问在AI时代,人类存在的意义与价值是什么?人类的哪些宝贵品质在AI时代更为重要?请你给出当今的老师和家长提一些中肯、可行的建议!
【Kimi工作过程】
Kimi在“慢思考”模式下,会经过较长的时间才会给出答案。在上述案例中,大约花了 4~5分钟。
Kimi的工作过程总体分为三步: 规划、搜索、输出。主要的时间花在了“搜索”上。
以下分三步介绍:
【第一步】规划(差不多1-2秒)
规划的结果,Kimi认为应该做三个方面的搜索,如下图所示:
【第二步】搜索(这一步很慢,3~4分钟)
接着,Kimi会针对它“规划”出来的三个话题,逐一开展搜索。
而且,Kimi会针对搜索出来结果, 立即开展“理解”工作。搜索起来实际上很快,但Kimi“理解”的过程就比较慢了。
在第1个方面搜索、理解完成后,Kimi就会自动切换到第2个方面的搜索。它同样自动会产生一些关键词,并开展搜索:
Kimi不仅是”边搜索、边理解“,而且它还会根据“理解”,动态增加关键词,扩大搜索范围:
Kimi的以上过程,就是对人类的”慢思考“过程、或者说“研究过程”的模拟——根据已经阅读和思考出来的结果,不断扩展思路、不断找到更多资料,不断深化自己的思考,直到覆盖了自己所能想到的所有方面为止。
最终,Kimi在“规划”出来的三个方向中,采用了“边理解、边思考、边扩大搜索”的工作模式下,一共搜索了 168个网页:
应该说,这个数字是相当可观的!因为Kimi在普通工作模式中,一般只会搜索20~30个网页。尤其是,你要考虑到这168个网页,都是跟你的问题的方方面面都有紧密关联的!
【第三步】输出(半分钟~1分钟)
这一步没有太多可说的。
只能说:资料如果更准确、全面了,答案质量自然会更高。
让人感到意味深长的是:虽然在“慢思考”模式下搜索出来的资料特别多,但Kimi的 回答反而更简约了(参见后文),而且一定程度上 摆脱了AI回复相对比较“空洞”的通病,显得更加“言之有物”。
以下是 在Kimi“探索模式”的最终回答:
作为对比,王珏老师特意让Kimi在普通模式下,回答了同一问题:
肉眼可见的是:
“慢思考”模式下,Kimi的输出内容结构更合理、内容更精简!
——这和人类思考也很像,粗略的思考很可能会产生很多方向和可能性,而深入思考后反而会使结论更为精简、通常也更精准、更深刻。
为了便于大家阅读,以下用Kimi对以上两段文本进行详细比较,比较结果如下表:
(红字和加粗部分为王珏老师所加, 红字表示有所不同, 红字+加粗表示较大不同)
“探索”模式的输出文本 | 普通模式输出文本 | |
---|---|---|
情感与共情 | 情感体验、同理心和爱 | 体验和理解情感,同理心 |
创造力与创新 | 跨领域思考,提出独特的创意和解决方案 | 超越现有知识,创造新的想法和解决方案 |
伦理与道德判断 | 复杂的伦理和道德考量 | 基于道德和伦理原则做出决策 |
批判性思维 | 质疑现状, 提出深刻的问题,逻辑推理和分析 | 质疑、分析和评估信息 |
适应性与灵活性 | 未提及 | 适应不断变化的环境和情况 |
对老师的建议 | 培养学生的创造力和批判性思维、注重情感教育、 融合AI技术、持续学习与适应 | 培养情感智能、鼓励创造力、 教授道德和伦理、强化适应性和灵活性、培养批判性思维 |
对家长的建议 | 保护孩子的好奇心和创造力、培养技术素养、注重情感教育和心理健康、引导孩子正确使用AI技术 | 终身学习、技术与人文的结合、 合作而非竞争、自我认知、全球视野 |
通过上表可见:
对于本文所提出的问题,“探索”模式虽然不能说“碾压”普通模式,但回答质量确有不小的提升,感觉到它更加言之有物,更能够把握住关键要点。
——当然,这些所谓”更好“的文字表述,同样来自于它搜索的结果(或者说人类的已有知识)。只不过它的搜索范围更大、关联度更高,而且看起来对文字整理的功力也见长。
体验二:数理逻辑问题(理科)
在科学问题解决方面,o1能打败人类博士,Kimi表现如何?
由于时间短促,我也没有特别合适的问题——而且,经过试验,我发现数理逻辑问题还不能以图片方式提供给kimi,否则它就会自动关闭“探索”模式、而且还无法打开……
所以,我找了一道纯文字性质的“丘成桐英才班”选拔题让Kimi试试:
[x]=3x-2
这回,我们先来看 普通模式,解答过程如下:
解题思路是清晰、正确的,答案也正确。
下面,我们来看看 “探索”模式下,Kimi的解题过程:
从解题的实质性过程来看,两次工作模式完全相同。
相比之下,“探索模式"也作了一些改进:
明确列出了解题步骤。步骤其实就是解题的框架,这 可能说明kimi在解数理逻辑题时,也已经有了一套行之有效的“思维框架”(类似于前一个文科例子中的“规划”)。之所以说“可能”,因为我们只能通过表层来猜深层的机制,不一定准确。
解题的表述上更简约,展示更集约化,不过前后并没有大的差异
增加了“验证”步骤。产生这一变化的原因,应该还是背后的“思维框架”在起作用。 对于数理逻辑来说,这一步很重要。
我猜,如果它验证出自己的解题结果不对的话,也许会再重新开展一轮思考?——事实上,现在的大模型解题也是靠“猜”的,经常不对。 这个问题就留给大家探索吧。
通过此次对一个文科问题、和一个理科问题的测评,我们看到Kimi还是有相当大的改进的,不再是以前那样主要靠“猜”,而是建立了一套“ 思考框架”,用思考框架来应对用户提出的问题,体现出了不错的思考与推理水平。
看来Kimi的开发人员也没闲着,一直在向最先进的OpenAI学习。当然还得继续加油才行!
——————————————
如果您对AI教学感兴趣,欢迎加入“AI教师交流群”,共同分享AI技术与教学实践经验:
如欲将王珏老师的培训课程 《AI时代教师必备技能》引入本单位(不针对个人),请到本公众号首输入” AI培训“,了解联系方式。
——————————————————
本公众号提供全面、深度的学习科学研究、微课与PPT研究、以及其它实用技术研究文章!到公众号首页输入代码查看更多研究:
aigc:ai教学应用技巧集
xxkx:学习科学研究文章
wk:微课超级大全,设计制作应用一网打尽
ppt:PPT技巧集