(来源:MIT TR)
科学家对神经网络中人工神经元工作方式进行调整可以使人工智能更容易被理解。
人工神经元是深度神经网络的基本组成部分,几十年来几乎没有任何变化。虽然这些网络赋予了现代人工智能强大力量,但它们向来都是难以捉摸的。
现有的人工神经元用于 GPT-4 等大型语言模型,其工作原理是:接收大量输入,将它们相加,然后使用神经元内部的另一种数学运算将总和转换为输出。这些神经元组合在一起形成了庞大的神经网络,它们的组合工作可能很难解码。
但这种组合神经元的新方法的工作原理略有不同,现有神经元的一些复杂性被简化并移到神经元之外。在内部,新的神经元只需对它们的输入进行求和并产生输出,而不需要额外的“隐藏操作”。这种神经元网络被称为 Kolmogorov-Arnold Networks(KAN),其以开发它们的俄罗斯数学家的名字进行命名。
麻省理工学院的一个研究小组对这种简化进行了详细研究,可以让人们更容易理解为什么神经网络会产生某些输出,帮助验证他们的决策,甚至探究偏差。初步证据还表明,随着 KAN 变得越来越大,它们的准确性比传统神经元构建的网络提升得更快。
“这是一项有趣的工作,人们试图从根本上重新思考这些网络的底层设计,这非常好。”在纽约大学研究机器学习基础的 Andrew Wilson 说道。
KAN 的基本机制实际上是在 20 世纪 90 年代提出的,研究人员不断构建此类网络的简化版本。但麻省理工学院领导的团队进一步发展了这个想法,展示了如何构建和训练更大的 KAN,对它们进行了实证测试,并分析一些 KAN 以展示人类如何解释它们解决问题的能力。“我们重新激活了这个想法。希望凭借可解释性,我们或许不再认为神经网络是一个‘黑匣子’。”麻省理工学院 Max Tegmark 实验室的博士生刘子鸣表示。
虽然现在还处于早期阶段,但该团队在 KAN 方面的工作已经引起了业界大量关注。GitHub 页面犹如雨后春笋般涌现,展示了如何将 KAN 用于各种应用,比如图像识别、解决流体动力学问题等。
寻找公式
当前的进展其实是在麻省理工学院、加州理工学院和其他研究所的同事探索标准人工神经网络的内部工作原理时取得的。
如今,几乎所有类型的人工智能,包括用于构建大型语言模型和图像识别系统的人工智能,都包含称为“多层感知器(MLP)”的子网络。在 MLP 中,人工神经元排列成密集且相互连接的“层”中。每个神经元内部都有一个称为“激活函数”的元素,这是一种数学运算,它接受一堆输入并以某种预先指定的方式将其转换为输出。
在 MLP 中,每个人工神经元接收来自前一层中所有神经元的输入,并将每个输入乘以相应的“权重”(表示该输入重要性的数值)。这些加权输入被加在一起,并馈送到神经元内部的激活函数以生成输出,然后将其传递到下一层的神经元。例如,MLP 通过为所有神经元的输入权重选择正确的值来学习区分猫和狗的图像。至关重要的是,激活函数是固定的,在训练过程中不会改变。
经过训练后,MLP 的所有神经元及其连接本质上充当了另一个函数,它接受输入(例如,图像中的数万个像素)并产生所需的输出(例如,0 代表猫,1 代表狗)。理解该函数的样子(即其数学形式)是理解它为何产生某些输出的重要组成部分。例如,为什么它会根据某人的财务状况将其标记为信誉良好的人?但 MLP 是个“黑匣子”,对于图像识别等复杂任务,对网络进行逆向工程几乎是不可能的。
即使当刘子鸣和同事尝试对 MLP 进行逆向工程以完成涉及定制“合成”数据的简单任务时,他们也遇到了困难。
“如果我们甚至无法解释这些来自神经网络的合成数据集,那么处理现实世界的数据集就毫无希望了。我们发现尝试理解这些神经网络真的很难,所以我们想改变架构。”刘子鸣说。
重绘数学
这个过程中,最主要的变化是删除了固定的激活函数,并引入了一个更简单的可学习函数,以在每个输入进入神经元之前对其进行转换。
与 MLP 神经元中的激活函数接收大量输入不同,KAN 神经元外部的每个简单函数接收一个数字并输出另一个数字。目前在训练过程中,KAN 不再像 MLP 那样学习单个权重,而是只学习如何表示每个简单函数。在今年发布在预印本服务器 ArXiv 上的一篇论文中,刘子鸣和团队表明,神经元之外的这些简单函数更容易解释,使得重建整个 KAN 所学习的函数的数学形式成为可能。
然而,该团队仅在简单的合成数据集上测试了 KAN 的可解释性,而没有测试更复杂的图像识别等现实世界问题。“我们正在慢慢突破界限,可解释性可能是一项非常具有挑战性的任务。”刘子鸣说。
刘子鸣和团队还表明,随着规模的增加,KAN 能够比 MLP 更准确地完成任务。该团队从理论上证明了这一结果,并针对与科学相关的任务(例如学习近似与物理相关的函数)进行了实证验证。“目前还不清楚这一观察结果是否会扩展到标准机器学习任务,但至少对于科学相关任务来说,它似乎很有希望。”刘子鸣说。
刘子鸣也承认 KAN 还有一个不足之处:与 MLP 相比,训练 KAN 需要更多的时间和算力。
“这限制了 KAN 在大规模数据集和复杂任务上的应用效率。”西交利物浦大学的张迪表示。他认为,更高效的算法和硬件加速器可能会有所帮助。
Anil Ananthaswamy 是一位科学记者和作家,撰写有关物理学、计算神经科学和机器学习的文章。他的新书《机器为何学习:现代人工智能背后的优雅数学》于 7 月由达顿(美国企鹅兰登书屋)出版。
原文链接:
https://www.technologyreview.com/2024/08/30/1103385/a-new-way-to-build-neural-networks-could-make-ai-more-understandable/