徐英瑾：大数据不是通用AI的未来丨AI时代的人类意见

作者：经济观察报发布时间：2023-12-22

亲爱的读者：

很高兴与你们分享我对于人工智能（AI）的一些见解和思考。人工智能诞生之后，大约形成了“基于规则”和“基于数据”这两大技术路线。虽然前者曾经在技术历史上占据主要优势，但目前人们谈起的人工智能，主要还是基于大数据。

很多人认为人工智能的发展，本质上是堆数据、堆算力，当然还要堆金钱。国家与国家间的人工智能竞争，无非也是在这些维度上展开的。

但有趣的是，不少人同时觉得，人工智能的发展还需要伦理制约，不能让其过多侵犯个体隐私。问题在于，怎么可能一面指望基于大数据技术的人工智能自身能够不断发展的同时，又不去侵犯个体的隐私？这就像既要一匹赛马跑得比动车快，又要希望赛马吃得比小马驹还少。毋宁说，大数据技术这一饕鬄怪兽所要吞噬的饲料，就是海量的个人数据。

因此，如果说数据采集构成了现在主流人工智能的生命线，那么在不改变这一技术现实的前提下，对于隐私的任何保护都会成为一种作秀。

以欧盟对于人脸识别技术的限制为例，为了体现欧洲式的政治正确，在欧盟范围内对人脸的机器识别，是不能包含对于被识别人士的种族识别机制的，以此防止出现种族歧视现象。但这里的问题是，由于监督相关技术平台之后台运作的门槛很高，一般民众采集证据证明自己的图像已经被不恰当利用的门槛也非常高。换言之，此类规范性条款的制定，恐怕只能满足欧洲立法机关的道德虚荣心，并不能真正帮到被困在信息网格中的普罗大众。

于是，目前主流的人工智能叙事已经陷入了一种精神分裂的状态：一方面人们高喊要赶上主流人工智能技术发展的大潮，不发展就会落后；一方面却又要做出一种要保护个体隐私的道德姿态。这当然不是一种能够长久保持的状态，而做出这一判断的理由，也并非仅仅是基于伦理考量的。正如驱动机车的石油不是取之不竭的那样，使得大数据技术得以运作的数据资源也非取之不竭的。

举例来说，今天的ChatGPT的确能够很好地模拟莎士比亚或海明威的文笔，但这毕竟只是在吃人类既有人文资源的红利。假若未来的作家高度依赖这样的技术工具进行写作，其文笔与格调就会被定死在人类精神发展的现有阶段，进入某种无聊的重复之中。同时，由于此类大语言模型对于主流语言的偏好，蕴藏在小语种与方言中的人类智慧就会被慢慢边缘化，成为无法被打捞的人类文化遗产。我们即将迎来海德格尔口中的“常人状态”被机器加以固化的新历史阶段。

眼下的世界，是不是我们这一代人在年幼时候所希望的人工智能时代？答案恐怕是否定的。

至少在我孩童时，我对智能的憧憬既不是希望其能够像“阿尔法狗”那样在围棋比赛中打败人类，也不是希望其能够像ChatGPT那样帮助我们写结婚请柬。道理非常简单，围棋水平高不高，或者，是否能够抽出一刻钟自己拟定一份结婚请柬，并不是什么大事。当时的我更希望人工智能技术与机器人技术相互结合，做出一些真正人类没法或很难做到的事情：冲进火场救人、下潜到水里捞人、去南极建立科考站等等。但令人遗憾的是，今天我们的技术状态却恰恰是：即使在技术最发达的国家，一旦发生地震火灾等巨大灾害，我们依然需要人类救灾员亲身涉险。尽管现有的大数据技术已经能够根据某项火灾的网络热度向读者推送相关视频，而现在的多模态大数据技术也已经能够针对相关视频制作与之对应的语言评注。但那又怎么样？

这几年，我一直在提倡一种与大数据技术不同的小数据技术，相关的技术细节在我的著作《人工智能哲学十五讲》（北京大学出版社2021年出版）中已有详细阐述。在这里，我想就“小数据技术”的哲学思想前提做一番澄清。

大数据技术的思路来自于还原主义，即认为人类智能的来源既然是大脑，我们就需要对大脑做生理学层面的数学建模，由此出现了所谓的深度学习的技术路径。

小数据技术思路的哲学前提则是反还原主义，即认为人类智能的真正奥秘并不需要下降到生理学层面去理解，只需要在心理学层面上加以模拟。假若在心理学层面上观察人类心智，我们会发现，人类心智恰恰是以一种很节俭的方式在运作：孩童能通过很少的狗与狼的照片样本了解到两种动物的区分，同时，也可以通过较少的语言样本掌握母语。优秀的企业家可以通过不太多的商业情报找到商机，优秀的军事家还能通过对于关键情报的把握掌握战机等等。

一种基于少量情报的心智模型，已经在德国心理学家吉仁泽（GerdGigerenzer）那里得到系统的研究，并在华裔人工智能科学家王培的“非公理化推理系统”中得到了全面的计算机建模尝试。

我坚信这样的技术路径是能够走通的。一旦走通，困扰大数据技术的伦理困境将自然被化解：既然新技术路径在本质上并不需要消耗大量数据，人们自然不用担心这样的技术路径会对用户的隐私构成实质性威胁。

然而，虽然我多年提倡小数据技术，但似乎在舆论场上依然处于劣势。我个人认为原因有两个：第一，大数据技术已经对不少相关企业的创研思路构成束缚，并由此使得其产生路径依赖。这使得与大数据技术不同的小数据技术很难得到全面的重视。第二，小数据技术虽然在伦理风险上远小于大数据技术，但规避伦理风险显然不是当前人工智能发展的主要动力源。毋宁说，获得商业落地的机会，才是一项研究项目被重视的主要理由。

但问题在于，商业循环的短周期本身就很难与人类历史发展的长时段后效的考虑相合拍，这就使得一种纯粹基于商业驱动的人工智能发展路径很难容忍新路径的基础性研究。

主流人工智能学界陷于大数据技术泥潭恐怕还会持续很长时间。不过，对于这一现状，我也不想做过多抱怨。他们做他们的，我们做我们的，尽管“他们”的人数比“我们”多。然而，在哥白尼的时代，相信托勒密体系的人难道不也更多吗？

徐英瑾

2023年12月

（作者系复旦大学哲学学院教授）