本文来源于清华大学电子工程系博士谢耘新书《从凡夫到“上帝”》第四章:理解,知识与人工智能。
自今年初文生视频大模型Sora引爆热议后,本周美国软件巨头Adobe表示,将允许用户在其旗下的视频编辑软件中使用包括OpenAI的Sora在内的第三方生成式人工智能工具。
另外,马斯克旗下人工智能公司xAI于近日推出首个多模态模型 Grok-1.5 Vision。
xAI 表示:除文本功能外,Grok还可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。xAI重点展示了Grok-1.5V的7个示例,包括:将手绘图表转换成Python代码、看食品标签计算卡路里、根据孩子的绘画讲睡前故事、解释梗图等。
马斯克xAI的多模态模型Grok-1.5V
Sora 可以在每次 API 调用中为自然语言提示创建最多三种视频变体。
无论在语言领域还是在视频领域,它们都给出了让许多人感到惊奇的结果,于是便出现了大量耸人听闻的说法。其中一个核心的话题就是有人认为这些模型已经具有了“理解”能力,它们能够理解语言背后的逻辑,能够理解物理世界的运动规律。
当谈到“理解”的时候,有多少人知道自己心中的“理解”到底是什么?如果大家对于什么是“理解”都没有共同认识的话,讨论这些生成模型是否有“理解”能力就失去了意义。
“理解”是一个我们再熟悉不过的词汇了,它同时也是智能意识领域中最基本与核心的问题之一。问题越基本,我们往往越熟视无睹,越觉得无需做什么解释,其实把它说清楚就越困难。
从小到大,我们都在努力地去“理解”,也希望被别人理解。可是好像却没有谁讲过到底什么是“理解”。在受教育的过程中,几乎所有课程,都是讲授需要我们去理解的知识内容,然后用考试来检验我们是否理解课程。但却没有一门普及性的课程教授我们应该如何去理解。“理解”似乎是一个如呼吸一样的理所当然的、每个人都会自然而然地无师自通的能力。
然而事情远非如此简单。只要是生理正常的人都一样地在正常呼吸,但是正常人之间的理解能力却是有很大的差异。如同一个老师教授的学生可以有很不同的结果表现。
如果我们将人类的理性意识活动做简化,可以得到下图所示的基本过程示意。
人类理性活动的简化示意
从这个过程中我们可以看到,理解是认知的结果也是行动的前提,是人类理性意识活动的核心环节。
所以对“理解”有一个清晰的认识,对于我们提升自己的理解能力,寻找意识活动的规律,包括人工智能在内的计算机应用这个人类的“外意识”,认识各种基于不同算法的“外意识”的能力边界都具有极其重要又十分普遍的意义。
01. 机器学习获得的“统计性理解”
在对人的理解做了一个比较全面的讨论之后,我们来看一下人类创造出来的“外意识”在“理解”的道路上到底走了多远,以及最终能走多远。