继Anthropic之后,OpenAI也公开了破解大模型“黑盒”的方法,而且两者的方法不谋而合。
今天我们还不清楚如何理解语言模型中的神经活动。OpenAI分享了一种改进的方法,用于发现大量有助于人类可解释的“特征”——这些特征是人类可以解释的活动模式。
OpenAI表示自己的方法比现有工作更具扩展性,OpenAI用它在GPT-4中发现了1600万个特征。
//
解释神经网络的挑战
与大多数人类创造物不同,我们并不真正了解神经网络的内部工作原理。
例如,工程师可以根据汽车零部件的规格直接设计、评估和修理汽车,以确保安全性和性能。
然而,神经网络不是直接设计的,我们设计训练它们的算法。由此产生的网络尚未得到很好的理解,也无法轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。
为了理解和解释神经网络,我们首先需要找到有用的神经计算构建块。
不幸的是,语言模型中的神经激活以不可预测的模式激活,似乎同时代表许多概念。它们还密集地激活,这意味着每个激活总是在每个输入上触发。
但现实世界的概念非常稀疏——在任何给定的上下文中,只有一小部分概念是相关的。
什么是SAE?
为了解决上述挑战,这促使人们使用稀疏自动编码器(sparse autoencoders,简称SAE),这是一种识别神经网络中少数几个对产生任何给定输出很重要的“特征”的方法,类似于一个人在推理某种情况时可能想到的一小组概念。
OpenAI前超级对齐团队负责人Jan Leike详细解释了SAE的概念:
本文中的SAEs由两部分组成:编码器和解码器。
编码器是从模型的内部状态(“模型正在考虑什么”)到“概念空间”的线性变换。通过将模型的内部状态通过这个线性变换,我们得到了与这个内部状态最相关的活动概念。
这种变换是线性的,意味着在某种意义上它是“简单”的:提取相关概念的几乎所有“工作”都是由模型完成的,而不是由SAE完成。
解码器是从概念空间回到内部状态的另一个线性变换。
这个解码器对于训练编码器很重要:我们通过减少“重建误差”——即原始的模型内部状态和我们通过串联编码器和解码器得到的近似值之间的差异——来同时训练编码器和解码器。换句话说,我们使用解码器尽可能忠实地将概念空间翻译回模型的内部状态。
对于SAEs,我们希望概念空间中的特征是*稀疏*的,这意味着在任何给定时间只有少数概念是活跃的(比如1600万个中的500个)。这在直观上是有意义的,因为在任何给定情况下,只有少数概念适用:大多数物体都不是苹果,大多数动物都不是马,大多数句子都不是修辞问题,等等。
SAE的特征显示出稀疏的激活模式,这些模式自然与人类容易理解的概念相一致,即使没有直接的可解释性动机。
然而,训练稀疏自动编码器仍面临严峻挑战。大型语言模型代表大量概念,我们的自动编码器可能需要相应地很大才能接近前沿模型中概念的完全覆盖。学习大量稀疏特征具有挑战性,过去的工作并未显示出很好的可扩展性。
OpenAI的研究进展:大规模自动编码器训练
OpenAI开发了最先进的新方法,能够将稀疏自动编码器扩展到前沿 AI 模型上的数千万个特征。
OpenAI的方法表现出平滑且可预测的扩展,并且比以前的技术具有更好的规模回报。OpenAI还引入了几个用于评估特征质量的新指标。
OpenAI在 GPT-2 small 和 GPT-4 激活上训练了各种自动编码器,包括 GPT-4 上的 1600 万个特征自动编码器。为了检查特征的可解释性,通过显示激活特征的文档来可视化给定特征。
具体是如何实现的?该研究的作者之一,前超级对齐团队成员 Leo Gao 介绍道:
首先,引入了一种基于TopK激活函数的新型自编码器(SAE)训练堆栈。这消除了特征收缩问题,并允许直接设置L0。OpenAI的方法在均方误差(MSE)和L0的边界上表现良好。即使在1600万的规模上,也几乎没有无效的潜在特征。
OpenAI发现,自动编码器潜在计数 (N) 和稀疏度 (k) 以及计算 (C) 具有清晰的缩放规律。同时还发现,较大的主题语言模型具有指数较浅的缩放规律。
然而,MSE/L0并不是最终关心的优化目标。因此,还探索了几个不同的指标。
限制
可解释性最终能够提高模型的可信度和可操作性。然而,这仍处于早期阶段,存在许多局限性:
OpenAI将开源这一研究
虽然稀疏自动编码器研究令人兴奋,但前路漫漫,还有许多未解决的挑战。短期内,希望OpenAI发现的特征能够实际用于监控和控制语言模型行为,并计划在我们的前沿模型中测试这一点。
最终,希望有一天,可解释性可以为我们提供新的方式来推理模型的安全性和稳健性,并通过对它们的行为提供强有力的保证,显著提高我们对强大人工智能模型的信任。
今天,OpenAI分享了一篇论文详细介绍的实验和方法,希望这将使研究人员更容易大规模训练自动编码器。OpenAI将发布一整套适用于 GPT-2 small 的自动编码器,以及代码使用它们,以及特征可视化工具了解 GPT-2 和 GPT-4 功能可能对应的内容。