谢耘：为什么要认真讨论大语言模型的“理解”问题？

作者：观察者网发布时间：2024-04-17

本文来源于清华大学电子工程系博士谢耘新书《从凡夫到“上帝”》第四章：理解，知识与人工智能。

自今年初文生视频大模型Sora引爆热议后，本周美国软件巨头Adobe表示，将允许用户在其旗下的视频编辑软件中使用包括OpenAI的Sora在内的第三方生成式人工智能工具。

另外，马斯克旗下人工智能公司xAI于近日推出首个多模态模型 Grok-1.5 Vision。

xAI 表示：除文本功能外，Grok还可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图、照片，并能进行多学科推理。xAI重点展示了Grok-1.5V的7个示例，包括：将手绘图表转换成Python代码、看食品标签计算卡路里、根据孩子的绘画讲睡前故事、解释梗图等。

马斯克xAI的多模态模型Grok-1.5V

Sora 可以在每次 API 调用中为自然语言提示创建最多三种视频变体。

无论在语言领域还是在视频领域，它们都给出了让许多人感到惊奇的结果，于是便出现了大量耸人听闻的说法。其中一个核心的话题就是有人认为这些模型已经具有了“理解”能力，它们能够理解语言背后的逻辑，能够理解物理世界的运动规律。

当谈到“理解”的时候，有多少人知道自己心中的“理解”到底是什么？如果大家对于什么是“理解”都没有共同认识的话，讨论这些生成模型是否有“理解”能力就失去了意义。

“理解”是一个我们再熟悉不过的词汇了，它同时也是智能意识领域中最基本与核心的问题之一。问题越基本，我们往往越熟视无睹，越觉得无需做什么解释，其实把它说清楚就越困难。

从小到大，我们都在努力地去“理解”，也希望被别人理解。可是好像却没有谁讲过到底什么是“理解”。在受教育的过程中，几乎所有课程，都是讲授需要我们去理解的知识内容，然后用考试来检验我们是否理解课程。但却没有一门普及性的课程教授我们应该如何去理解。“理解”似乎是一个如呼吸一样的理所当然的、每个人都会自然而然地无师自通的能力。

然而事情远非如此简单。只要是生理正常的人都一样地在正常呼吸，但是正常人之间的理解能力却是有很大的差异。如同一个老师教授的学生可以有很不同的结果表现。

如果我们将人类的理性意识活动做简化，可以得到下图所示的基本过程示意。

人类理性活动的简化示意

从这个过程中我们可以看到，理解是认知的结果也是行动的前提，是人类理性意识活动的核心环节。

所以对“理解”有一个清晰的认识，对于我们提升自己的理解能力，寻找意识活动的规律，包括人工智能在内的计算机应用这个人类的“外意识”，认识各种基于不同算法的“外意识”的能力边界都具有极其重要又十分普遍的意义。

01. 机器学习获得的“统计性理解”

在对人的理解做了一个比较全面的讨论之后，我们来看一下人类创造出来的“外意识”在“理解”的道路上到底走了多远，以及最终能走多远。