Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

作者：机器之心发布时间：2024-06-07

大模型也可解释了？

大模型都在想什么？OpenAI 找到了一种办法，能给 GPT-4 做「扫描」，告诉你 AI 的思路，而且还把这种方法开源了。

大语言模型（LLM）是当前 AI 领域最热门的探索方向，吸引了大量的关注和研究投入。它们强大的语言理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们见证了大模型迭代后性能上的显著提升，但我们目前对模型中的神经活动仍然只是一知半解。

本周四，OpenAI 分享了一种查找大量「特征」的全新方法 —— 或许这会成为可解释的一种可用方向。OpenAI 表示，新方法比此前的一些思路更具可扩展性，研究团队使用它们在 GPT-4 中找到了 1600 万个特征。

有趣的是，从作者列表中，我们发现已经从 OpenAI 离职的 Ilya Sutskever、Jan Leike 等人也是作者之一。

可谓是一项重要的研究。

论文标题：Scaling and evaluating sparse autoencoders

论文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf

代码：https://github.com/openai/sparse_autoencoder

特征可视化：https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

解释神经网络

作为机器学习模型，神经网络通过使用模仿生物神经元协同工作的过程来识别现象并得出结论，然而长久以来，我们并不真正了解神经网络的内部运作原理。神经网络并不是直接设计的，研究人员设计了训练它们的算法。由此产生的神经网络还不能很好地被理解，并且不能轻易地分解为可识别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。

为了理解和解释神经网络，首先需要找到用于神经计算的有用构建块。然而，语言模型内的神经激活是以不可预测的模式激活的，似乎同时代表许多概念，它们还密集激活，这意味着每次激活总是在每个输入上触发。

但现实世界的概念非常稀疏 —— 在任何给定的上下文中，所有概念中只有一小部分是相关的。这激发了稀疏自动编码器的使用。

稀疏自动编码器（sparse autoencoder）是一种识别神经网络中少数「特征」的方法，这些「特征」对于产生任何给定的输出都很重要，类似于一个人在推理某种情况时可能想到的一小部分概念。它们的特征显示出稀疏的激活模式，自然地与人类易于理解的概念保持一致，即使没有直接的可解释性激励。

然而，训练稀疏自动编码器仍然面临严峻的挑战。大型语言模型表征大量概念，自动编码器可能需要相应巨大的规模才能接近完全覆盖前沿模型中的概念。学习大量稀疏特征具有挑战性，并且过去的工作尚未证明可以很好地扩展。

大规模自动编码器训练

OpenAI 最新的研究进展提出了一种新方法，能够将稀疏自动编码器扩展到前沿人工智能模型上的数千万个特征。并且该方法显示出平滑且可预测的扩展，与现有方法相比具有更好的规模回报。同时，OpenAI 还引入了几个用于评估特征质量的新指标。

OpenAI 使用该方法在 GPT-2 small 和 GPT-4 激活上训练各种自动编码器，包括 GPT-4 上的 1600 万个特征的自动编码器。

具体来说，研究团队在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架构和训练设置的模型（包括 GPT-4 本身）的残差流上训练自动编码器。他们选择了靠近网络末端的一层，该层应包含许多特征，而不专门用于下一个 token 的预测。

所有实验均使用 64 个 token 的上下文长度。研究团队先在 dmodel 维度上减去平均值，并将所有输入归一化为单位范数（unit norm），然后再传递给自动编码器（或计算重建误差）。

训练结束后，研究团队根据稀疏性 L_0 和重建均方误差 (MSE) 对自动编码器进行评估。

为了简化分析，OpenAI 不考虑学习率预热或衰减，sweep 小规模的学习率，并推断大规模的最佳学习率的趋势。

为了检查特征的可解释性，OpenAI 进行了可视化工作。以下是 OpenAI 发现的一些可解释的特征：

人类的缺陷；
价格上涨；
X 和 Y；
训练 Log；
反问句；
代数环；
谁 / 什么；
多巴胺。

例如，GPT-4 特征：与事物（尤其是人类）有缺陷相关的短语：

价格上涨：

反问句：

局限和发展方向

新方法能够提高模型的可信度和可操纵性。然而这仍是早期工作，存在许多局限性：

与此前的研究一样，许多发现的特征仍然难以解释，许多特征的激活没有明确的模式，或者表现出与它们通常编码的概念无关的虚假激活。此外，目前我们还没有很好的方法来检查解释的有效性。

稀疏自动编码器不会捕获原始模型的所有行为。目前，将 GPT-4 的激活通过稀疏自动编码器大致相当于使用大约 1/10 计算量训练一个模型。为了完全映射前沿 LLM 中的概念，我们可能需要扩展到数十亿或数万亿个特征，即便使用改进的扩展技术，这也具有挑战性。

稀疏自动编码器可以在模型中的某一点找到特征，但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征以及如何在模型的其余部分下游使用这些特征。

稀疏自动编码器的研究令人兴奋，OpenAI 表示，还有一些待解决的挑战。短期内，工程师们希望新发现的特征能够实际用于监控和控制语言模型行为，并计划在前沿模型中对此进行测试。希望最终有一天，可解释性可以为我们提供推理模型安全性和稳健性的新方法，并通过对 AI 行为提供强有力的保证，大幅提高我们对新一代 AI 模型的信任。

参考内容：

https://openai.com/index/extracting-concepts-from-gpt-4/

本文来自微信公众号“机器之心”（ID：almosthuman2014），编辑：小舟、泽南、大盘鸡，36氪经授权发布。

Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

解释神经网络

大规模自动编码器训练

局限和发展方向

推荐体验

相关资讯

OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

OpenAI 公开破解 GPT-4 思维的新方法，Ilya 也参与了

从GPT-4看AI风险和治理：如何破解“可解释性”困局？

当“狂飙”的ChatGPT碰上严肃医疗，它是怎么想的？

利用CLIP提取图像特征

近期资讯

无锡润徽取得精密交直流电源列头柜专利，可延缓线路因外部因素造成的老化

如何在数字时代有效利用微信，提升生活与工作的便利性

安徽天霖建设工程有限公司取得一种机电工程用控制柜专利，方便进行安装接线

如何有效查看和管理电脑硬盘的状态与使用情况

如何安全退出或注销微信账号的详细步骤与注意事项

扬州耐思电气取得种户外高低压配电柜专利，避免因空气潮湿影响电气元件的性能

重庆欧贝亚科技取得一种集成式水泵控制配电箱专利，能够防止灰尘和湿气损坏配电箱内部电子元件

如何删除QQ账号：步骤与注意事项详解，助你轻松做出决定

江苏鸿博取得便于吊装的预制舱壳体专利，避免吊绳对预制舱外壳顶部造成挤压损坏

如何在Windows 10中设置屏保以保护隐私和美化桌面

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响