尽管ChatGPT和其他大型语言模型取得了巨大的成功,但支撑这些系统的人工神经网络(Artificial Neural Networks,简称ANNs)可能正在走错方向。
首先,人工神经网络“非常耗电”,马里兰大学的计算机科学家康妮莉娅·费米勒(Cornelia Fermüller)表示,“此外它们还缺乏透明度”。这些系统非常复杂,没有人真正理解它们在做什么,或者为什么能够如此出色地工作。然而,这也导致它们几乎不可能像人类一样通过类比来推理,用符号来表示对象、观念以及它们之间的关系。
这些缺陷可能源自当前人工神经网络的结构和构建单元:个别的人工神经元。每个神经元接收输入,执行运算,并产生输出。现代神经网络是由这些计算单元构成的复杂网络,经过训练以执行特定任务。
然而,人工神经网络的局限性早已显而易见。例如,想象一个能够区分形状(圆形和正方形)的神经网络。一种方法是在其输出层中使用两个神经元,一个表示圆形,另一个表示正方形。如果我们还需要这个神经网络辨别形状的颜色(蓝色或红色),就需要四个输出神经元:分别代表蓝色圆形、蓝色正方形、红色圆形和红色正方形。更多的特征意味着需要更多的神经元。
自然世界充满各种变化,这不可能是我们的大脑感知自然世界的方法。加州大学伯克利分校的神经科学家布鲁诺·奥尔斯豪森(Bruno Olshausen)表示:“否则你必须假设,每个可能的组合在你的大脑中都有一个对应的检测神经元。比如说,专门检测紫色大众汽车的神经元。”
-DeepMind Design -
相反,奥尔斯豪森和其他人认为,大脑中的信息是由许多神经元的活动所表示的。因此,对于紫色大众汽车的感知并不是通过单个神经元的活动编码,而是成千上万个。同一组神经元以不同的方式激活,可以代表完全不同的概念,比如粉色凯迪拉克。
这是一种被称为超维度计算(hyperdimensional computing)的彻底不同的计算方法的起点。关键在于,每个信息片段,例如汽车这个概念,它的品牌、型号或颜色,或者所有这些的综合,都被表示为一个单独的实体:一个超维度向量。
向量简单来说就是一组有序的数字数组。例如,一个三维向量由三个数字组成:三维空间中一个点的x、y和z坐标。一个超维度向量,或者称为超向量,可以是一个包含一万个数字的数组,用来表示一万维空间中的一个点。这些数学对象及其操作代数足够灵活和强大,可以将现代计算推向超越某些当前限制的新领域,并促进一种新的人工智能方法的发展。
“这是我整个职业生涯中最令我兴奋的事情,”奥尔斯豪森说道。对他和许多其他人来说,超维度计算承诺了一个全新的世界,在这个世界中,计算高效而稳健,机器决策完全透明。
- Mikael MOUNE -
进入高维空间
为了理解超向量如何实现计算,让我们回到有红色圆形和蓝色正方形的图像。首先,我们需要向量来表示变量“形状”和“颜色”。然后,我们还需要向量来表示可以分配给这些变量的值:“圆”、“正方形”、“蓝色”和“红色”。
这些向量必须是不同的。这种不同可以通过一种名为正交性的属性来量化,它表示彼此垂直。在三维空间中,有三个相互垂直的向量:一个沿着x方向,另一个沿着y方向,第三个沿着z方向。在一万维空间中,有一万个这样相互正交的向量。
但是,如果我们允许向量近似正交,那么在高维空间中这样的不同向量的数量会急剧增加。在一万维空间中,存在数百万个近似正交的向量。
现在让我们创建不同的向量来表示“形状”、“颜色”、“圆形”、“正方形”、“蓝色”和“红色”。由于在高维空间中存在许多可能近似正交的向量,我们可以简单地分配六个随机向量来表示这六个项目;它们几乎可以确保是近似正交的。加州大学伯克利分校红木中心理论神经科学研究员彭蒂·卡内尔瓦(Pentti Kanerva)在2009年的一篇有影响力的论文中写道:“制作近似正交向量的简便,是使用超维度表示的主要原因之一。”
加州大学伯克利分校神经科学研究员彭蒂·卡内尔瓦(左)与布鲁诺·奥尔斯豪森
—
Chris Kymn
这篇论文是基于20世纪90年代中期彭蒂·卡内尔瓦和托尼·普拉特(Tony Plate)的工作而建立的。当时,托尼·普拉特是杰夫·辛顿(Geoff Hinton)在多伦多大学的博士生。这两位独立地开发了用于操作超向量的代数,并暗示了它在高维计算中的用处。
有了彭蒂·卡内尔瓦和托尼·普拉特开发的系统,我们可以对我们创建的形状和颜色的超向量进行某些数学运算的操作。这些操作对应着符号化的操作概念。
第一个操作是乘法。这个操作用于组合概念。例如,将形状向量与圆形向量相乘,结合以表示"形状是圆形"的概念。这个新的"结合"向量与形状和圆形向量都近似正交。如果我们想要从结合向量中提取信息,结合向量有一个重要的特征,就是它的组成成分可以恢复。给定代表大众汽车的结合向量,我们可以解除结合并取回其颜色向量:紫色。
第二个操作是加法。这个操作能创建表示概念叠加的新向量。例如,将两个结合向量“形状是圆形”和“颜色是红色”相加,以创建一个表示红色圆形的向量。同样,叠加向量可以分解为其组成部分。
第三个操作是排列。这个操作涉及重新排列向量的各个元素。例如,如果有一个标有x、y和z的三维向量,排列可以将x的值移到y,将y的值移到z,将z的值移到x。“排列让你得以建立结构,”彭蒂·卡内尔瓦说。“你可以处理发生顺序有时间先后的连续事件。”比如有两个由超向量A和B表示的事件。我们可以将它们叠加成一个向量,但这样会破坏事件的顺序信息。将加法和排列组合起来使用,可以保存顺序。通过逆向操作,可以按顺序获取这些事件。
综合而言,这三个操作足以创建超向量的形式代数(formal algebra),从而实现符号推理。但是许多研究人员都需要很长才能理解超维度计算的潜力,包括彭蒂·卡内尔瓦。“超维度计算还没有被完全理解”,他说道。
- Mikael MOUNE -
利用力量
在2015年,奥尔豪森的学生埃里克·韦斯(Eric Weiss)展示了超维度计算独特能力的一个方面。韦斯发现了如何将复杂图像表示为单个超维度向量,其中包含关于图像中所有对象的信息,包括它们的属性,如颜色、位置和大小。
“我几乎从椅子上摔下来,”奥尔豪森说道。“突然之间灯泡亮了。”
不久,更多团队开始开发超维度算法来复现深度神经网络在大约二十年前开始解决的简单任务,例如图像分类。
考虑一个包含手写数字图像的标注数据集。算法使用某种预定的方案分析每个图像的特征,然后为每个图像创建一个超向量。接下来,算法将所有零的超向量相加,创建表示零的超向量。然后对所有数字做同样的操作,创建10个“类别”超向量,每个数字一个。
现在,算法给出一个无标签的图像。它为这个新图像创建一个超向量,然后将超向量与存储的类别超向量进行比较。这个比较确定新图像与哪个数字最相似。
苏黎世 IBM 研究院的计算机科学家阿巴斯·拉希米
—
Abbas Rahimi
然而,这只是一个开始。超维度计算的优势在于能够组合和分解超向量进行推理。最新的演示是在今年三月,当时阿巴斯·拉希米(Abbas Rahimi)和他在IBM瑞士研究中心的同事们使用超维度计算结合神经网络解决了一个抽象视觉推理中的经典问题——这对于典型的人工神经网络甚至一些人类来说都是一个重大挑战。这个问题被称为雷文渐进矩阵(Raven's progressive matrices),它展示了几何对象的图像,比如在一个3×3的网格中,其中一个位置是空白的。研究对象必须从一组候选图像中选择最适合空白位置的图像。
“我们说,‘这真的是……视觉抽象推理的杀手级例子,我们来试试吧。’”拉希米说。
为了使用超维度计算解决这个问题,团队首先创建了一个超向量字典,用于表示每个图像中的对象;字典中的每个超向量代表一个对象及其属性的某种组合。然后,团队训练了一个神经网络,用于检查图像并生成一个双极超向量(元素可以是+1或-1),使其尽可能接近字典中超向量的某种叠加;生成的超向量因此包含有关图像中所有对象及其属性的信息。“你引导神经网络进入一个有意义的概念空间,”拉希米说道。
一旦网络为每个上下文图像和每个空白位置的候选图像生成了超向量,另一个算法会分析超向量,创建每个图像中对象数量、大小和其他特征的概率分布。这些概率分布反映了上下文和候选图像的可能特征,可以转化为超向量,从而利用代数学预测最有可能填补空白位置的候选图像。
在一个问题集上,他们的方法准确率接近88%,而仅使用神经网络的解决方案准确率不到61%。该团队还展示了,在3×3网格中,他们的系统比传统的使用符号逻辑规则推理的方法快了近250倍,因为后者必须搜索一本庞大的规则书才能确定下一步的正确策略。
-Myriam Wares -
一个有希望的开端
超维度计算不仅赋予我们解决符号问题的能力,而且还解决了传统计算中的一些棘手问题。当出现由随机位翻转引起的错误(例如0变为1或反之)无法被内置的纠错机制纠正时,如今的计算机性能会迅速下降。此外,这些纠错机制可能会对性能造成高达25%的损失,来自维拉诺瓦大学的计算机科学家焦逊(音译,Xun Jiao)表示。
超维度计算对错误的容忍度更高,因为即使一个超向量遭受了大量的随机位翻转,它仍然接近于原始向量。这意味着在面对错误时,使用这些向量进行推理不会受到实质性的影响。焦逊的团队已经证明,与传统人工神经网络相比,这些系统对硬件故障的容错能力至少高出10倍,而传统人工神经网络已经比传统计算架构的容错能力高出数个数量级。“我们可以利用所有这些容错性来设计一些高效的硬件,”焦逊说道。
超维度计算的另一个优点是透明性:代数运算清楚地告诉你系统为什么选择了特定的答案。而对于传统神经网络来说,情况并非如此。奥尔豪森、拉希米和其他人正在开发混合系统,其中神经网络将物理世界中的事物映射到超向量中,然后由超维度代数接管处理。“类比推理之类的事情变得轻而易举,”奥尔豪森说道。“这是我们对任何人工智能系统的期望。我们应该能够像理解飞机或电视机一样理解它。”
所有这些相对于传统计算的优势表明,超维度计算非常适合用于新一代极其坚固、低功耗的硬件。它还与“内存计算系统(in-memory computing system)”兼容,这些系统在存储数据的硬件上执行计算(与现有的冯·诺伊曼计算机不同,后者在内存和中央处理单元之间低效地传输数据)。其中一些新设备可以是模拟设备,以非常低的电压运行,使其具有高能效,但也容易受到随机噪声的影响。对于冯·诺伊曼计算而言,这种随机性是“无法逾越的障碍”,奥尔豪森说。但是通过超维度计算,“你可以突破这个障碍。”
尽管具有这样的优势,超维度计算仍处于它的初级阶段。“这里有真正的潜力,”费尔米勒说道。但她指出,超维度计算仍然需要在真实世界的问题中,以更大的,接近现代神经网络的规模测试。
“解决大规模问题,需要非常高效的硬件,”拉希米说。“例如,如何高效地搜索10亿个项目?”
所有这些都需要时间,卡内尔瓦表示。“高维空间还隐藏着其他秘密,”他说道。“我认为这只是使用向量进行计算的起点。”
后记
本篇是神经现实举办的“机器翻译”大赛的第03篇,后续会有更多本比赛的作品出炉。如果你对训练ChatGPT做翻译有信心,也欢迎将你的作品投稿给我们,邮箱neureality@outlook.com。(点击此处,阅读原稿机器翻译对比版本)
苏木弯:我觉得机器翻译很适合赶ddl,比起传统机器翻译,更快更好(地蒙混过关)。但是还是有很多细节的地方需要人工来调。如果不改,能一眼看出是机器翻译,不能放心地使用。或者有一些要求,比如翻译的格式,就算给了prompt也不能很统一。也可能是我的prompt能力需要提高。总而言之,对这种泛泛而谈的科普文章,人工也不能做得多出彩,而机器翻译效率高,胜于人工翻译我觉得。
作者:Anil Ananthaswamy
译者:ChatGPT|审校:苏木弯 | 编辑:光影
排版:光影| 封面:Myriam Wares
原文:
https://www.quantamagazine.org/a-new-approach-to-computation-reimagines-artificial-intelligence-20230413/
本文来自微信公众号“神经现实”(ID:neureality),作者:Ananthaswamy,36氪经授权发布。