当前位置:首页|资讯|ChatGPT|人工智能

从集异壁理解ChatGPT的成功与局限

作者:文因互联发布时间:2023-04-10

原标题:从集异壁理解ChatGPT的成功与局限

终其一生,人类都在探寻认知这个世界的方式。

音乐、绘画和人工智能是三个看似无关的领域,但是它们都是人类这次伟大尝试的绚烂明珠。

在这三个领域,追根溯源,底层的结构,都简洁且美丽。

图片由Midjourney生成,prompt:“Through a picture describing the underlying commonality of music, painting and computer, it shows that they all describe the world by composing complex structures from simple structures(通过一幅描述音乐、绘画和计算机潜在共性的图片,表明它们都是通过简单结构组成复杂结构来描述世界的)”

《哥德尔·艾舍尔·巴赫》这本书,便是揭示了这个道理,复杂结构是如何构造出来的,引出了一个关键概念,就是递归,不断不断地指向中心,简单叠加简单,创造复杂。

如果你开始记住这个概念,那么我们可以一起打开《哥德尔·艾舍尔·巴赫》这本书开启一段旅程。

了解这些,你会更加深刻地理解

  • ChatGPT 为什么成功?
  • ChatGPT 最大的局限在哪里?

(以下为文因互联鲍捷博士在腾讯云TVB组织AI读书分享会上的演讲,分享书为《哥德尔·艾舍尔·巴赫》)

这本书是1979年发布的, 在目前我们都非常关注代表前沿的ChatGPT时,或许有人会问,为什么一本1979年的书仍然有意义呢?

本书中有 一章的名字叫做《G弦上的咏叹调》,里面用很长篇幅探讨了人类在不同领域中的创造,包括音乐、绘画以及我们的计算机科学。在这些创造中,作者发现了一些核心的共性,让我们感到神奇而美妙。

因此,在阅读侯世达写的这本书时,我获得了许多新的思考。尤其是结合书中所提及的观点,再审视当今这个ChatGPT,更激发了我更多的思考。今天与大家分享阅读过程中的一些收获。

01

万物合一——音乐、绘画、计算机

侯世达在 1979 年写这本书时人工智能处于第一个冬天,连第二个春天还没到来。

即使在人工智能第一个春天时,也没有机器学习、深度学习、知识图谱,后来知道的所有的这一切东西都没有。

在1979年的时候,人们普遍认为人工智能是一种形式化的逻辑系统。然而,随着时间的推移,这种看法被证明是有历史局限的。尽管如此,其中有一些看法至今仍未被突破,例如人工智能到底是什么。

人工智能是关于知识的科学,但每个时代都有自己不同的知识表达方法,因而均对知识表达的边界和知识表达的能力有理论相关的深刻认知。这些认知甚至在计算机科学产生出来前就存在了, 所以那些认知本身并没有被突破

要理解今天的人工智能系统,我们必须回溯到40年甚至60年前。去回答“ GPT为什么如此成功?GPT到底有哪些边界?这些让人们非常好奇问题。

坦白说,对于上述问题,我并没有答案。在阅读这本书的过程中,我做了一些大胆的猜想,但它们仍需验证。整本书的内容虽然长达1000页,几乎可用作防身武器,但我认为可以用庄子的话来概括它: “吾生也有涯,而知也无涯”

也就是说,如何用有涯的资源去表达无涯的知识。

这本书从头到尾引领我们游览了多个领域,包括了巴赫的音乐、艾舍尔的绘画以及其他诸多内容。音乐本质上就是一种符号体系,与我们的大脑认知结构密切相关。因此,从自然语言处理的角度来看,音乐实质上就是另一种自然语言。当作者讲到巴赫的音乐时,提到了其中一段副歌,这是一种循环的音乐,被称为国王的音乐。它一开始是一种节奏,然后是一个中间的调,最后回到了开始的部分。这部分论证使作者想到艾舍尔的画作,尤其是他的名作《瀑布》,通过一系列视觉错觉的手法,创造了水从上往下流,最终回到原点的效果,艾舍尔因此画了许多类似的作品。

无论是音乐还是绘画,都拥有一种类似的结构,即在某一点上回到原点。 我们发现世界上大多数复杂的事物最终都存在这样一种被称为“自指”的结构。

02

生也有涯——万物与底层结构

在我攻读研究生期间,尽管我研究的领域是人工智能,但我的应用研究方向却是生物学,尤其是在蛋白质基因和基因表达方面的研究。我曾经花费了很长时间来研究这个领域,因为我们人类只有两万多个基因,却需要表达数万种蛋白质,这些蛋白质数量甚至可以达到几十万,从而支撑着我们每个人独特的外貌和形态。

这种编码能力并不仅仅只存在于人类,事实上,我们每个人的身体中约有三分之一是蘑菇,这意味着我们的基因中也有三分之一是与蘑菇相同的。这是一件非常神奇的事情,因为我们的生物可以通过如此少量的基因,演化出世界上各种看起来独特的生物形态。

那么,如何通过有限的基因序列编码出无限的表现型呢?其实这就是基因的奇妙之处,在编码过程中,基因利用了一个非常复杂的表达网络来完成这一任务。这个过程就像音乐和绘画一样,具备了一种自我表达的能力。

在更基础的物理层面上,也可能存在着这样的机制。在理论物理学中,有一种称为费曼图的东西,它描述了粒子之间的相互转换。即使是真空,我们所处的这个世界也不是真实的,因为它不停地涌现出粒子,并在几乎瞬间消失。这些粒子会相互吸收、分裂,最终会产生新的粒子。费曼图是一种描述粒子运动的图形,通过它我们可以看到用有限的61种基本粒子构造出万物的算法结构,这也是自指存在的过程。

在物理世界、生物世界以及人类的精神世界中,存在一个普遍的现象,即我们需要利用有限的基础结构来表达无限的知识。这种现象的核心在于递归,是一种能够作用于自身的法则,我们称它为递归。

本书的核心内容在于讲解如何构建逻辑体系。一旦我们掌握了递归的能力,就可以表达非常复杂的结构,这是人工智能领域一直在探索的成功核心问题之一。就是我们是否能够找到一种成本低、效率高、计算速度快的递归方法,与经过45亿年自然进化而产生的人类智慧进行一场PK。

其实到目前为止没有找到, 虽然有人会问ChatGPT不是吗?不是的。就像我们每个人在中小学时都学过的四则运算,其中加法和减法就是典型的递归系统,可以通过一条简单的公理来描述。如果想要建立一个不太严谨的数学体系,可能只需要一条公理就可以了,例如加法和减法。在这本书中,我们可以通过基础公理来建立理论体系,进而建立整个数学的运算体系。

但如果想建立一些更加严谨的数学体系,就需要更多的公理,例如自然数。我们需要通过多条公理来描述自然数,例如1+1=2,2+1=3等等。虽然看起来很简单,但是如果要非常严谨地描述,可能需要5条公理才能做到。

数学代数并不像算数那样简单,那么更加复杂的数学是否能够被严谨地描述呢?大家可能听说过罗素悖论,其中最经典的表达方式是理发师悖论。一个理发师发誓说不会为自己刮胡子的人刮胡子,但最后他却不知道要为自己刮胡子还是不刮胡子。这个问题很难被解决,但是罗素通过集合论的方式最终解决了这个悖论。虽然这个问题在数学上比较难懂,这里不详细阐述。

总之,罗素在1900年前后提出了一个观点,即科学可以被形式化,通过将科学转化为一种逻辑结构,我们可以实现更强大的理性,不需要使用非常模糊的自然语言。希尔伯特在1900年提出了他著名的23个问题,这是理性主义的黄金时代。那个时候,物理学正在突飞猛进,1905年爱因斯坦发现了狭义相对论。

那时,人们相信所有的问题都是物理问题,而所有的物理问题都是数学问题。如果我们能够形式化地描述所有的数学问题,那么 我们就能实现人类整个知识体系的形式化,即实现完全无漏洞,甚至可以自动化执行人类的认知能力。当时人们相信这一点是可以达到的。

在这种思想的影响下,一系列科学家开始探索。一开始,他们仅仅只是为了寻找理性的星辰大海,但这一切工作却莫名其妙地导致了一种奇怪的机器——计算机的发明。图灵和丘奇是两位著名的计算机科学家,他们分别发明了图灵机和Lambda演算。作为奥地利人的哥德尔是位杰出的数学家,从数学角度证明了两个不完备定理。这三个人(图灵、邱奇、哥德尔)几乎在同一时间证明了同样的事情,就是人类的理性是有边界的。

哥德尔证明, 不管你有多少公理,最终总有一些问题,既没有办法证明,也没有办法证伪。即使你把全部的知识都公理化了,也一定会有一个定理,是没有办法证明的,也没有办法证否的,你就是不知道。因为人类的认知边界是有限的,甚至可以说整个世界的理性都有不可逾越的边界。在物理学上,我们还没有很好的解释,但是在数学上,我们证明了有一些东西是无法计算的。无论你用尽全宇宙的能量去计算,你都无法得出结果,因为你做不到。

03

知也无涯——ChatGPT与未来

ChatGPT 为什么能够取得成功呢?其中一个重要的原因在于它的开发者们无意中利用了“认知剩余”的概念。

这是早在十多年前,克莱•舍基在他的著作《认知盈余》中提出的一种理论,即我们想要构建一个庞大的协作系统去改变世界,就需要考虑每个人的认知剩余,并最终汇聚起来。因为大多数时间,我们每个人都在做出决策,比如,你在过马路时遇到了红灯,你会停下来,这就是一个决策。

那么我们如何将日常生活中积累下来的大量认知剩余聚集起来呢?ChatGPT 的出现为我们提供了一个全新的可能性。Linus曾有句名言:“Talk is cheap, show me the code.”,而 ChatGPT 出现后,这句话也许可以改为:“Code is cheap, show me the talk.”。因为现在我们可以通过和 ChatGPT 对话来获取信息,而无需编写复杂的代码。

图片由Midjourney生成,prompt:“In a bright office, a robot uses pincer hands to pluck data from financial statements, each floating in midair(在一间明亮办公室里,机器人用钳子似的手从财务报表中提取数据,每个数据漂浮在半空中)”

我们以前经常说,“有多少人工就有多少智能”,因为在进行数据标注时,人工是隐藏在数据标注中的,这本身就是一种人工监督。但现在,ChatGPT 通过大规模无标注语言模型进行训练, 我认为,这是 ChatGPT 成功最核心的因素之一。不过,这里的“无标注”并不是真正的无监督学习,依然是有监督的,只是这个监督隐藏在文本里。当然,还有一些更加明显的人类监督,如指令学习和RLHF。

ChatGPT带来了人工智能的第二次突破,即认知剩余产生的监督知识。这次的突破与历史上首次突破有关,那就是机器学习的突破,也称为认知剩余产生的数据。首次突破是由于互联网的出现而引起的,因为互联网带来了大量的在线数据,使得我们第一次能够利用这些数据来获取认知剩余。

这次ChatGPT 带来的突破不仅能够收集认知剩余带来的数据,还可以收集由认知剩余产生的监督知识。这些知识包括大量未标注的自然语言数据,这些数据实际上是人类智慧的结晶。现在,我们可以使用 ChatGPT 来提取这些隐藏的监督信息,进而产生更加丰富的结构。

有人可能会问,什么是数据?什么是知识?这又回到了本书最核心的主题,即递归结构。当我们询问 ChatGPT 时,经常会发现它在基本的四则运算上有时偏离了实际,有时是正确的,有时是错误的。

这是因为 ChatGPT 作为一个大型语言模型,迄今为止还不能很好地在其原生的语言模型内部学习递归结构。对于所有其他需要进行复杂递归结构表示的事物,ChatGPT 的表现都不太好。因此,这给我们提供了一个启示,即如果我们未来想要进行第三次突破,那么我们就应该考虑如何更好地实现低成本的递归结构学习。我认为,谁能够做到这一点,谁就能够取得比 ChatGPT 更令人惊叹的成就。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1