朱松纯：ChatGPT可能不如文盲，通用人工智能体“通通”已具自我意识

作者：一起来唠科发布时间：2024-04-28

ChatGPT 人工智能腾讯

朱松纯：ChatGPT可能不如文盲，通用人工智能体“通通”已具自我意识

一起来唠科

2024-04-28 15:35发布于北京腾讯新闻《一起来唠科》官方账号

核心要点

1
一个三四岁小孩所具备的智能才是最关键的东西，街头智慧相比书本智慧来说更是目前人工智能缺乏的，ChatGPT把世界上大部分书都读了，但可能它还不如一个街头的文盲。
2
“通通”做国际奥数比赛的平面几何题，0.6秒就答出来了。如果用Chat GPT回答，可能每一步都有模有样，但就是错的。
3
“通通”已经具备了初步的自主意识，不再是被动机械地接受、完全由外界来推动，而是有自己的诉求、愿望意图。

扶正挂歪的相框、擦干净被打翻的牛奶、收拾扔乱的玩具.....

“眼里有活”的通用智能体小女孩“通通”在没有任何任务需求的前提下就能根据内置价值观，主动做出类人反应。

目前，“通通”的智力水平约相当于三岁人类儿童，在某些特殊任务领域，其能力已超过成人。

通用人工智能体如何做到“眼里有活”？它面对测试的表现如何？拥有类人价值观的“通通“已经具备自我意识了吗？

以下为腾讯新闻《一起来唠科》与北京通用人工智能研究院院长朱松纯的对话实录：

一、ChatGPT读了世界上所有书，可能不如三岁儿童智力的“通通”

问：您的团队今年 1 月发布了全球首个由价值与因果驱动的通用人工智能（AGI）系统原型——小女孩“通通”。能否简单介绍一下“通通”？

朱松纯：2024年1月底我们发布了通用智能体小女孩“通通”。

对人工智能的研究一开始有很大误区，认为能完成人不会的工作（比如下棋）那就是智能体；对于我们人生活中、日常中每天的行为，比如说我眼睛能看东西、手能够捏筷子、搓汤圆，觉得这不是智能。其实恰恰相反，为什么呢？因为下棋对日常生活不那么重要，我们大脑皮层并没有哪一块专门进化出来用于下棋，所以我们才会觉得下棋很难。

日常生活用筷子、刷牙等我们觉得不费劲，是因为我们大脑超过90%的神经元系统都是进化过程中用来干这些事情而进化来的，这恰恰才是最智能、对日常生活最重要的东西。

一个三四岁小孩所具备的智能才是最关键的东西，街头智慧相比书本智慧来说更是目前人工智能缺乏的，ChatGPT把世界上大部分书都读了，但可能它还不如一个街头的文盲。

我们现在做的就是打造通用智能体小女孩“通通”，它有三四岁人类儿童的智商。为什么是三岁？中国有话叫“三岁看老”。

通用智能体小女孩“通通”（图源：北京通用人工智能研究院官方网站）

她认知架构完备了，那视觉、语言、认知、推理等等就可以进一步支撑其做无穷的任务。我们首先把小女孩“通通”放到上文提到的的完备测试环境中去，她会探索环境，探索物理空间的因果，有声音的话会寻找声音来源、照镜子建立自我意识。在这个空间中她能习得各种能力，把一个人接进去与她进行交互，“言传身教”下她会建立自己的价值体系，主动驱动自己习得价值并与人进行对齐。在此基础上她可以完成大量任务，和人玩游戏、摆积木等，进一步到厨房里完成各种工作。

我认为这才是中国干出来的世界上第一个通用智能体，在此基础上我们也做了一些物理上的“具身智能”，可以是一个人形机器人、可以是一个手臂，还可以是将来的坦克系统等，有一个“大脑”，在不同“身体”里进行活动完成任务。它能知道人需要什么，主动产生任务并分解成几十步（目前我们的技术能达到完成二十多步的长期规划），比如人打翻一杯水，它就拿纸擦，没纸就会去找。这种规划也体现在它将自己的物理身体考虑在交互过程中，过门缝就会考虑自己胖瘦。

通用智能体小女孩“通通”（图源：新华网）

问：我们为什么要构建属于自己的操作系统和编程语言？这是否与我国自主研发道路有关？

朱松纯：关于未来的中国道路，我的想法是，很快就会有超越80亿人的通用智能体出现，靠什么驱动？此时就需要新型操作系统和编程语言来迭代和驱动，它不再下棋、做数学题，而是和人类一样穿衣服、照顾老人。由操作系统变成编程语言，才会有新型的体系结构和新型芯片，这样一来我们才能构建未来时代属于我们的软件系统。

现在我们已经走了第一步，创造出了“小女孩”，同时也由操作系统变为语言了，现在可以开始考虑和现在GPU架构不一样的新架构。我们必须提前布局、提前“设伏”，才能构建一个人工智能的新生态。这也是通用人工智能的中国路线、中国方向。

二、已经具备初步的自主意识，通用人工智能不做生活的“文盲”

问：小女孩“通通”由价值与因果驱动，这种“价值”的搭建汲取了哪些来源？这是可量化、可准确评估的吗？如何保证它的正确性？

朱松纯：小女孩“通通”它作为一个智能体，首先需要有相对完备的认知体系来承受这样的心智。所以我们通过各种方式给它构建价值体系，包括它个人的、他人的以及集体的价值，个人的体系很大程度上是可以通过跟人进行个人和集体的交互来实现，比如说言传身教、观察人的行为，推断人的价值偏好，这是一个根本性的东西。接着它会根据它的价值体系来自主地产生任务来跟人进行交流，在交流过程中又进一步来提升它的技能和价值体系，和人进行对齐，这是我觉得第一个重要的方面。

第二个重要的方面是一个根本性的问题，我们每个人的价值体系其实也是不同的，有偏好的差异，到底什么样的价值体系是正确的？我们人和人之间其实也在讨论这个问题，这个人物的构建其实很大程度上依赖于这种交流和碰撞。

所以我们在湖北武汉成立了亚洲社会仿真学会，正在打造一个社会模拟器，里面有几百万人，让他们在模拟器中进行进化，做实验，探讨文史哲政经法等很多中国文化以及经济法律层面上的问题，在争论之中再形成一些价值体系，看能不能够收敛到某一个大家都认为能够接受的一些共识或者是共同的价值体系上来。

亚洲社会仿真学会成立仪式现场（图源：武汉市人民政府官方网站）

这就是我们在更大层面上实现了中国儒家的理想——为天地立心，因为我们为个体立心就是为机器立心。为天地立心是说我们怎么样才能实现大家都认可的社会公约数，或者是公平正义；全球范围来讲，这就是我们国家提倡的人类命运共同体。因为不同的国家民族有不同地域，发展阶段不同，我们需要研究这些不同的价值体系和文明如何和谐共存的问题。

所以“价值”的问题可能不能很简单回答，而是需要很多层面上的研发，最后通过社会的碰撞交流才逐步达成一个共同的价值理念。但是根本的价值观上，人和人之间或者是机器之间，可能会有一定的差异和个性。

问：“通通“拥有类人价值观，能自主生成任务，这是否意味着它有自主意识？能否和公众简单解释一下，拥有人类价值观的难点和意义在哪里？

朱松纯：我个人认为“通通”已经具备了初步的自主意识。所谓的自主意识就是说我不再是被动机械地接受、完全由外界来推动，而是有我自己的诉求、愿望意图，这些愿望和意图很大程度上来源于我们的价值判断。

人作为生物进化的高级的物种，与生俱来的是大量的价值诉求，否则我们物种就灭了。物质诉求里面包含了非常丰富的价值条目，这个一直以来都是我们研究的一个盲点，大家都在把注意力放在数据上，放在能力上，而不是放在价值的构建上，但这一点其实恰恰是我们中国的教育中一直在强调的，育人首先是要德在先，要先构建它的良知，构建它的道德和价值，提升它的格局。

所以我觉得“通通”的构建很大程度上跟我们教小孩成长的过程是非常类似的，也有利于我们对此逐步观察，而不是一下子“失控”，我觉得对人工智能安全其实有非常重大的意义。

问：通研院联合北京大学发布了通用人工智能评级标准与测试平台（TongTest)，通用智能体如何在这一平台进行测试？小女孩“通通”面对测试的表现如何？

朱松纯：我们提出了世界首个测试平台，参照儿童发育心理学中儿童几个月到几岁各阶段要获得什么功能（即婴幼儿发育测试标准），进行实践后就形成了一个标准。之前的测试可能停留在单项人脸识别等，现在就变成一个完整测试，远超图灵测试等。

我们还进行了另一个研究，在类似的故意搞乱的房间里分别将小女孩“通通”与人类小孩进行对比，看他们俩会干什么事，这样我们就能知道他们在价值驱动过程中的区别在哪、小女孩“通通”是否已经具备这种智能等问题。

2024年1月底我们发布了通用智能体小女孩“通通”，我个人认为是实现了通用人工智能原型系统。我们的评级标准包含了对她能力的评级，比如视觉上能读懂多少物体、能回答多少单词等，但更重要的一点是对她价值体系的测试，采用UV两套系统同时进行测评和考核，U是能力，V是价值，下一步更关键的问题则是她的安全性。她有了一个完整的认知架构，大量专业知识和技能就可以规模化，这也是我们进一步的“云试教”极化，比如请很多大学老师和同学参与进来，通过VR眼镜进到她的空间中与她交流，言传身教，保证她的价值观是正确的。

我们2023年做了一个智商测试，请了北大和清华通班的学生，很多都是省市状元。做这个测试主要是因为它是刷题和尝试训练不出来的，结果是“小女孩”得了93分，北大清华状元们考了80分，一般人是75分，大模型只得了30分。我们也给他们做了IMO国际奥数比赛的平面几何题，有一道是2017年的，大家都没做出来，小女孩“通通”0.6秒就答出来了。如果用Chat GPT回答，可能每一步都有模有样，但就是错的。

所以在某些推理的关键领域她可以远超一般人，最后以工程平台的形式输出。我们输出了新一代操作系统和编程语言，这是指小女孩“通通”在脑袋里完成各种任务的调度。我们人类一秒内会有大量视觉任务，要看、手动、变换表情等，会在新的皮层中进行调度，调度的过程中是价值驱动。

通用人工智能评级标准与测试平台展示（图源：北京通用人工智能研究院官方网站）

（上述内容为腾讯新闻科学团队于2024年1月22日与朱松纯的对谈实录）