凭借一颗「草莓」,OpenAI 在周末抢下不少版面,成了一件不算新鲜的新鲜事。
新鲜体现在,这是一个高级别的保密项目,目标是「自主浏览互联网,执行深度研究」, 不过,路透社没能挖到更多技术细节,只提到采取了「后训练」的方式——这就不算新鲜了。
两个月前,OpenAI 创始人之一 John Schulman 在播客 Dwarkensh 上,就表示过,GPT-4 的进步,很大程度上要归功于后训练技术。
「通过后训练,去创造一个能够具备人们所关心的功能的模型,是非常复杂的」John Schulman说,「这需要大量的投入,是大量研发工作的积累,在一定程度上就形成了壁垒。 」
如果「Strawberry」的确是 OpenAI 的重点项目,那么可以想见,GPT-4 的确让他们尝到了甜头。而厚实的家底又给了 OpenAI 底气,进一步加高技术壁垒。
沿着一条已经略有成果的技术路线,继续迭代,并不新鲜,到底为什么又成了大新闻呢?
「Strawberry」的前身是「Q*」,一个在去年年底,就引起过轩然大波的神秘存在。
去年十一月,Sam Altman 毫无征兆地被踢出了董事会,他自己甚至是在会议当时被通知的,震惊了全公司,也震惊了行业上下。
董事会当时给出的理由是,他和团队在安全和风险管理方面,无法达成一致。而这个风险,就跟当时的绝密项目「Q*」有关。
这个项目原先由 Ilya Sutskever 带领,现在他已经离开 OpenAI 创业,做的就是AI 安全相关的业务。再联想到,马斯克曾经表示,这个项目「对人类构成了威胁」,很难不让人好奇这里头究竟有什么。
The Information 和路透社想办法获得内部消息,最后也只能确认,数学运算能力是「Q*」的重点。
图片来自:路透社
大模型擅「文」,能娴熟地处理语言文字,已经基本上跟人类打个平手了。但是数学运算却一直不太行。即便「Q*」曾经引发 OpenAI 的巨变,据路透社透露,当时它的表现大概是小学生的计算水平。
根据最新爆出的信息,OpenAI 内部已经有项目能在数学运算方面,达到 90% 的准确,进步惊人。
图片来自:路透社
强调一下:现在无法确认「Strawberry」究竟做到哪一步了。只能说,如果「Strawberry」作为「Q*」的升级版,大概率,它是一个继续在数学和计算方面寻求突破的项目。
「数学计算」和「推理」之间的关系,并不能直接划等号,但却透露着OpenAI的野心。
那么,「推理」到底是什么?
这两个字在现实里,显然有着非常广阔的定义。今年年初,香港中文大学领衔的团队做过一个基于模型推理能力的全面整理。「推理」最根本的定义有三重:
认知推理:在不完整、不一致的知识中,得出有意义结论的能力
这种推理最常见的是拼拼图,每一个小片都是巨大图画里的一角,随便就抓两片,肯定是对不上的。
你只能举着这些小碎片,拼拼凑凑,慢慢组成一幅完成的图。这个过程中,没有说明书和步骤图,经常是要凭手感、凭直觉。
逻辑推理:根据前提,以及这些前提间的关系,有条理地得出结论,且结论在逻辑上有隐含关系或成立
数学解题就是典型逻辑推理,有已知条件,有待求的问题,根据这些,你就能一步步推算出结果。逻辑推理是目前大模型研发里「最硬的一块骨头」。
自然语言推理:这是一个整合多种知识的过程,可以是显性知识或者隐性知识,从而得出对于世界的新结论
喜欢看探案故事、推理小说的朋友,应该很容易理解。这种推理,就像是碰上了一桩凶杀案故事,书里隐隐约约有一些暗示,一些不太明确的信息,必须结合各种不同的线索,推测出谁是凶手,犯罪过程是什么。
如果只是看路透社所获得的 OpenAI 内部文件,「Strawberry」的目标是,规划、访问互联网,以及执行深度研究。
这些看上去都更像是最后一种自然语言推理,无非是更强化了一下,算不算得上是推理能力的进步都不好说。
可是,OpenAI 对于「推理」并不那么拘泥,而是有一套更宏大的愿景。
John Schulman 心中,对「推理」的定义是这样的:
「推理意味着需要一些计算,或者是需要一些演绎。从这个定义来看,要能够在处理任务的当时进行计算和逐步计算。」
可以看到,在他的定义里,推理和计算行为高度绑定,而且希望机器的推理是实时进行——就像人类一样,接收信息的同时,就能做分析、判读。
但是,一个人即便数学不好,也不妨碍ta有逻辑地想事情,照样能完成各种类型的推理。为什么机器的数学能力,就如此重要?
可以这样理解:数学从来都不只是做运算,它本身也是一种对信息的表达方式。
数学是一种更依赖于符号形式和意义精确性的语言,1 就是 1,0 就是 0。
当使用计算符号和算式,去呈现信息时,其实比自然语言更低维。
换句话说,大模型之所以「能文」,就是建立在「会算」的基础上,将自然语言转换成了计算机语言。
这一点,早在 19 世界,就已经被历史最重要的数学家之一,乔治·布尔(就是创造了布尔变量的那个布尔),奠定了基础。
George Boole
布尔是一个有虔诚宗教信仰的人,他甚至想通过数学推理,来解释上帝的存在。
先不管他最后的结论是什么吧,他最终留给世界的财富,也就是《思维规律的探究》一书里,开篇便阐释了他宏大的目标:用微积分的符号语言,来表达推理这一思维活动的基本规律。
这也解释了为什么,一旦谈及 AI 在数学运算上的表现,人们期待的眼光里就多了几分紧张:
攻破了数学语言,或许真的就离破解思维活动不远了。
现在距离AI理解思维活动,到底有多近?
这次路透社认为,「Strawberry」的理论先驱,应该是两年前,斯坦福大学团队发表的 STaR 技术。
STaR 的开发者之一、斯坦福大学教授 Noah Goodman 接受路透社采访,表示他跟「Strawberry」没关系,但如果真的追平人类的推理能力,那是让人既兴奋、又恐惧的事。
Noah Goodman
STaR 的特点是:具备特定条件下的推理能力。先拿一个已经训练过的模型,再准备一个小的数据集(里面包括推理步骤),喂进去训练。
有了这些,再让模型去生成解决问题的推理过程。如果出来是正确的、符合答案的,那么这次推理就判定为有效。
接着不断微调不断微调,不断让它自我学习。最后测试的结果是,这样的方式的确能够提升模型在数学运算方面的表现。
换句话说,特定条件和训练方式下,的确可以让模型效仿推理过程,从而实现具备一定的推理能力。
这样辛苦地挖掘和塑造 AI 的推理能力,对日常使用而言有什么意义?
路透社的线人说,OpenAI 特别希望能够达成「CUA」,computer-using agent。模型能够根据文档和其他材料提供的信息,自主采取行动。
而这是 OpenAI 所提出的「五阶评级」中的第三阶:代行者,能够采取行动的系统。
图片来自:彭博社
现在的对话 chatbot 只是第一阶,「Strawberry」据称已经接近第二阶。
可以想见,推理能力是第三阶段的必要前提。只有具备了推理能力,通过各种信息,推演出用户意图,才有可能丝滑地完成服务调度,采取行动。
以鸿蒙的 Harmony Intelligence 为例,这是鸿蒙首次将 AI 能力融入系统。除了提供了基于生成式 AI 的图像、声音修复技术,还有惊艳的「控件 AI 化」,各种第三方应用可以调用系统空间处理请求,打破应用与应用之间的壁垒。
再比如,很快也要亮相的 Apple Intelligence,也是旨在为用户创造更一体化、无缝衔接的体验。
在 APPSO 之前的报道中,我们就提到了 AI 不应该只作为一种服务,而是要能糅合进操作系统里,共同存在。这恰恰也是来自于 OpenAI 创始人之一,Andrej Karpathy 的设想。
这就是 AI 推理能力备受瞩目的原因之一,只要你拥有一台智能手机,就不妨畅想一种可能的未来,「AI 作为智能手机新的操作系统,而大模型就是智能操作系统的核心」。
本文来自微信公众号“APPSO”(ID:appsolution),作者:Selina,36氪经授权发布。