OpenAI公布破解大模型黑盒的方法：稀疏自动编码器

作者：猜想笔记发布时间：2024-07-10

OpenAI

继Anthropic之后，OpenAI也公开了破解大模型“黑盒”的方法，而且两者的方法不谋而合。

今天我们还不清楚如何理解语言模型中的神经活动。OpenAI分享了一种改进的方法，用于发现大量有助于人类可解释的“特征”——这些特征是人类可以解释的活动模式。

OpenAI表示自己的方法比现有工作更具扩展性，OpenAI用它在GPT-4中发现了1600万个特征。

解释神经网络的挑战

与大多数人类创造物不同，我们并不真正了解神经网络的内部工作原理。

例如，工程师可以根据汽车零部件的规格直接设计、评估和修理汽车，以确保安全性和性能。

然而，神经网络不是直接设计的，我们设计训练它们的算法。由此产生的网络尚未得到很好的理解，也无法轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。

为了理解和解释神经网络，我们首先需要找到有用的神经计算构建块。

不幸的是，语言模型中的神经激活以不可预测的模式激活，似乎同时代表许多概念。它们还密集地激活，这意味着每个激活总是在每个输入上触发。

但现实世界的概念非常稀疏——在任何给定的上下文中，只有一小部分概念是相关的。

什么是SAE？

为了解决上述挑战，这促使人们使用稀疏自动编码器（sparse autoencoders，简称SAE），这是一种识别神经网络中少数几个对产生任何给定输出很重要的“特征”的方法，类似于一个人在推理某种情况时可能想到的一小组概念。

OpenAI前超级对齐团队负责人Jan Leike详细解释了SAE的概念：

本文中的SAEs由两部分组成：编码器和解码器。

编码器是从模型的内部状态（“模型正在考虑什么”）到“概念空间”的线性变换。通过将模型的内部状态通过这个线性变换，我们得到了与这个内部状态最相关的活动概念。

这种变换是线性的，意味着在某种意义上它是“简单”的：提取相关概念的几乎所有“工作”都是由模型完成的，而不是由SAE完成。

解码器是从概念空间回到内部状态的另一个线性变换。

这个解码器对于训练编码器很重要：我们通过减少“重建误差”——即原始的模型内部状态和我们通过串联编码器和解码器得到的近似值之间的差异——来同时训练编码器和解码器。换句话说，我们使用解码器尽可能忠实地将概念空间翻译回模型的内部状态。

对于SAEs，我们希望概念空间中的特征是*稀疏*的，这意味着在任何给定时间只有少数概念是活跃的（比如1600万个中的500个）。这在直观上是有意义的，因为在任何给定情况下，只有少数概念适用：大多数物体都不是苹果，大多数动物都不是马，大多数句子都不是修辞问题，等等。

SAE的特征显示出稀疏的激活模式，这些模式自然与人类容易理解的概念相一致，即使没有直接的可解释性动机。

然而，训练稀疏自动编码器仍面临严峻挑战。大型语言模型代表大量概念，我们的自动编码器可能需要相应地很大才能接近前沿模型中概念的完全覆盖。学习大量稀疏特征具有挑战性，过去的工作并未显示出很好的可扩展性。

OpenAI的研究进展：大规模自动编码器训练

OpenAI开发了最先进的新方法，能够将稀疏自动编码器扩展到前沿 AI 模型上的数千万个特征。

OpenAI的方法表现出平滑且可预测的扩展，并且比以前的技术具有更好的规模回报。OpenAI还引入了几个用于评估特征质量的新指标。

OpenAI在 GPT-2 small 和 GPT-4 激活上训练了各种自动编码器，包括 GPT-4 上的 1600 万个特征自动编码器。为了检查特征的可解释性，通过显示激活特征的文档来可视化给定特征。

具体是如何实现的？该研究的作者之一，前超级对齐团队成员 Leo Gao 介绍道：

首先，引入了一种基于TopK激活函数的新型自编码器（SAE）训练堆栈。这消除了特征收缩问题，并允许直接设置L0。OpenAI的方法在均方误差（MSE）和L0的边界上表现良好。即使在1600万的规模上，也几乎没有无效的潜在特征。

OpenAI发现，自动编码器潜在计数 (N) 和稀疏度 (k) 以及计算 (C) 具有清晰的缩放规律。同时还发现，较大的主题语言模型具有指数较浅的缩放规律。

然而，MSE/L0并不是最终关心的优化目标。因此，还探索了几个不同的指标。

下游损失告诉我们重建了多少行为，因此它上限界定了我们解释了多少（但并没有衡量特征有多好）

探针损失是一种基于检查自编码器是否恢复了我们假设它应该具有的特征这一理念的低成本指标。
消融稀疏度是衡量每个潜在特征对logits的下游消融效应是否稀疏的指标。

可解释性询问我们是否能够为每个潜在特征找到一个简单的解释。至关重要的是，我们不仅衡量激活潜在特征的样本是否符合解释，还衡量符合解释的样本是否激活了潜在特征，而先前的工作只衡量了前者。

限制

可解释性最终能够提高模型的可信度和可操作性。然而，这仍处于早期阶段，存在许多局限性：

与之前的研究一样，许多发现的特征仍然难以解释，许多特征的激活没有明确的模式，或者表现出与它们通常编码的概念无关的虚假激活。此外，我们也没有很好的方法来检查解释的有效性。

稀疏自动编码器无法捕获原始模型的所有行为。目前，将 GPT-4 的激活通过稀疏自动编码器可获得与使用大约 10 倍计算量训练的模型相当的性能。为了完全映射前沿 LLM 中的概念，我们可能需要扩展到数十亿或数万亿个特征，即使使用改进的扩展技术，这也具有挑战性。

稀疏自动编码器可以在模型的某一点找到特征，但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征，以及这些特征如何在模型的其余部分中下游使用。

OpenAI将开源这一研究

虽然稀疏自动编码器研究令人兴奋，但前路漫漫，还有许多未解决的挑战。短期内，希望OpenAI发现的特征能够实际用于监控和控制语言模型行为，并计划在我们的前沿模型中测试这一点。

最终，希望有一天，可解释性可以为我们提供新的方式来推理模型的安全性和稳健性，并通过对它们的行为提供强有力的保证，显著提高我们对强大人工智能模型的信任。

今天，OpenAI分享了一篇论文详细介绍的实验和方法，希望这将使研究人员更容易大规模训练自动编码器。OpenAI将发布一整套适用于 GPT-2 small 的自动编码器，以及代码使用它们，以及特征可视化工具了解 GPT-2 和 GPT-4 功能可能对应的内容。

相关资讯

深度学习算法中的自动编码器（Autoencoders）

深度学习算法中的自动编码器（Autoencoders）简介自动编码器（Autoencoders）是一种无监督学习算法，在深度学习领域中被广泛应用。它可以通过将输入数据进行编码和解码来重构数据，从而

深度学习

皮牙子抓饭 2023-09-20

揭示堆叠自动编码器的强大功能 - 最新深度学习技术

简介在不断发展的人工智能和机器学习领域，深度学习技术由于其处理复杂和高维数据的能力而获得了巨大的普

深度学习机器学习人工智能

Swindler 2023-11-30

精通Transformer——自动编码语言模型

在上一章中，我们研究了如何使用 Hugging Face 的 Transformers 来应用典型的 Transformer 模型。到目前为止，本书的所有章节都包括了如何使用预训练或预构建模型的说明，

Hugging Face

数据智能老司机 2024-08-15

WordVBA 把手工的段落编码变成自动编码

网友提问回答网友问题：这事我不会！没用过！然后我问了ChatGPT但是，我按他提供的方法操作了，不行，得不到您的需求目标。昨天，我在地下三层待了一天，我停车那位置的地库灯管坏了，找了物业好几次，说没有灯管。我想研究研究自己换。正好来了一个收暖气费热力公司的大姐，她路过好几次，都看我在那看着灯发呆。大姐问我：你在这干嘛？我说：我想换灯管。大姐问：灯管呢？我说：还没买呢？大姐说：这有什么可研究的？我说：您看，灯管的内层是：是汞、铅、镉等物质，还有适量的氩气。外层是玻璃。它里面的电流是隐形的，它给我们带来的光明

ChatGPT

孙兴华zz 2023-12-05

自动编码神器Cursor详细教学

大家好，我是程序员的勇敢。过去的一周，真是疯狂的一周。GPT-4 震撼发布，拥有了多模态能力，不仅能和GPT3一样进行文字对话，还能读懂图片；然后斯坦福大学发布 Alpaca 7 B，性能匹敌 GPT-3.5，关键是训练成本不到 600 美元，意味着我们可以更低成本使用这种模型；接着微软王炸发布 Microsoft 365 Copilot，“你是一个成熟的office办公软件了，应该学会自己写内容了”，Copilot 应用了最新的 GPT-4 技术，能够帮助用户在 Word、Excel、PowerPoin

GPT-4 Copilot 斯坦福微软

程序员的勇敢 2023-04-03

OpenAI公布破解大模型黑盒的方法：稀疏自动编码器

推荐体验

相关资讯

深度学习算法中的自动编码器（Autoencoders）

揭示堆叠自动编码器的强大功能 - 最新深度学习技术

精通Transformer——自动编码语言模型

WordVBA 把手工的段落编码变成自动编码

自动编码神器Cursor详细教学

近期资讯

“牛肉自由”背后暗战

美国独好，各国货币面临贬值风险

丰田章男，想靠雷克萨斯在中国翻盘

苹果为何一直拒用英伟达？

苏州即将冲出一个半导体IPO，北大微电子系校友创业，覆盖3nm先进制程

英伟达年终核弹，全新B300为o1推理大模型打造，RTX5090也曝光了

火出圈的冰雪景区都在悄悄做什么？

三大千亿央企做创投

丰田11月全球销量创当月新高，日产本田在华苦战

咖啡突破5万家大关，但新开店却同比下降了83%

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响