参考消息网11月1日报道英国《新科学家》周刊网站10月4日刊登题为《为什么我们仍未真正理解什么是大型语言模型》的文章,作者是亚历克斯·威尔金斯。全文编译如下:
硅谷对大型语言模型(LLMs)的狂热支持丝毫没有减弱的迹象。谷歌正将其聊天机器人“巴德”整合到公司的每项服务中,而开放人工智能研究中心(OpenAI)正在推出自己的产品聊天生成预训练转换器(ChatGPT),它拥有“看”和“说”等新的感官能力,预示着一种新形式的个人助理的到来。但是,这些工具到底是如何运转的仍是一个很大的谜团:它们闪亮的界面背后到底在发生什么?哪些任务是它们真正擅长的,它们在何种情况下会失灵?在存在如此多的未知的情况下,我们是否应把所有家当都押在技术上?
压缩算法
有关这些复杂的项目到底都在做什么,目前仍存在大量争论。今年2月,科幻作家姜峯楠写了一篇在网上疯传的文章,文章认为可以把像ChatGPT这样的LLMs比作压缩算法,压缩算法可以把图像或者音乐压缩成JPEG或者MP3格式,以节省空间。
姜峯楠说,LLMs事实上压缩的是整个互联网,就像“整个网络的一种模糊的JPEG格式”。研究人员对这一类比褒贬不一,有人称赞它的洞察力,有人则指责它过于简单化。
正如谷歌“深层思维”公司的一个团队最近发表的一篇论文所显示的,事实上,LLMs和压缩之间存在着深深的联系,但一定是沉浸在学术圈中的人才知道这一点。研究人员说,这些工具使用的压缩方式与姜峯楠所说的JPEG和MP3相同——它们正把数据缩减成更紧凑的东西。但他们还表示,压缩算法像LLMs一样还可以反向操作,预测一个序列中下一个词或者数字。例如,如果你给JPEG算法一半的图像,它就能比随机噪音更好地预测下一个像素是什么。
甚至是人工智能领域的研究人员也对这项工作感到惊讶,因为他们中有的人根本没有想到这一点,而有的人则认为这一点太显而易见了。这可能看上去像是掉进去了一个复杂的学术“兔子洞”,但它凸显了一个重要问题。
人工智能领域的许多研究人员并不完全了解他们研究的系统,原因既有这个领域根本上的神秘性,也和它相对是一个新领域有关。
如果一个顶级人工智能实验室的研究人员还在不断探寻,我们是否应当如此迅速地让这些模型承担如此多的责任?
迷雾重重
LLMs的性质以及如何解读它们的行为只是这个谜团中的一部分。虽然OpenAI公司会兴高采烈地宣称,GPT-4的“表现在各种专业和学术基准上展现出了人类的水平”,但目前还不清楚该系统究竟如何完成它以前没有见过的任务。
正如大多数人工智能科学家会告诉你的那样,表面上,LLMs是预测下一个单词的机器。通过试图在一个序列中找到下一个最有可能的单词,它们似乎显示了像人类一样的推理能力。
但普林斯顿大学研究人员最近的研究表明,许多似乎属于推理的行为并没有那么令人兴奋,而更像是人们设计这些模型用来做的事情——预测下一个单词。
例如,当他们要求GPT-4将一个数字乘以1.8,再加上32时,它的答案通常是正确的;但当这些数字稍有调整时,答案就都不对了。这是因为第一个公式是将摄氏度转换成华氏度。GPT-4能够正确地回答这个问题,因为它已经多次看到这个模式了,但当涉及到抽象部分,涉及到把这种逻辑用于它从未看到的类似问题时,就不灵了,而这是连小学生都能做到的。
能力失衡
每天使用ChatGPT等工具的数百万人并没有意识到它解决问题的能力上存在这种失衡,他们为什么要意识到呢?在OpenAI的网站上没有这方面的警告,而只是声明“ChatGPT可能会生成有关人物、地点或事实的不准确信息”。
这也表明,OpenAI在基准上“堪比人类的表现”的说法,可能不如最初看起来那么令人钦佩了。如果这些基准主要是由大概率事件构成,那么LLMs整体的解决问题能力可能比最初看起来的更差。
普林斯顿大学的研究人员表示,我们可能需要重新思考该如何评估LLMs,并在设计测试的过程中将这些模型到底如何运转考虑进来。
当然,这些工具仍然有用——许多繁琐的任务是大概率的、经常出现的问题。但是,如果我们把LLMs应用到我们生活的方方面面,那么花更多的时间思考它们到底是如何运转或者运转失灵的,对我们以及这些工具的创造者来说将大有裨益。