分解大模型的神经元！Claude团队最新研究火了，网友：打开黑盒

作者：量子位发布时间：2023-10-07

Claude ChatGPT

丰色发自凹非寺

量子位 | 公众号 QbitAI

神经网络的不可解释性，一直是AI领域的“老大难”问题。

但现在，我们似乎取得了一丝进展——

ChatGPT最强竞对Claude背后的公司Anthropic，利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。

具体而言，神经元具有不可解释性，但经过这一分解，Anthropic发现每一个特征都代表了不同的含义，比如有的分管DNA序列，有的则表示HTTP请求、法律文本等等，也就是具备了可解释性。

而通过人为地刺激其中任一特征，就能引导模型给出我们预期之内的输出。

比如开启DNA特征就能使模型输出DNA，开启阿拉伯文字特征就让模型输出阿拉伯文字。

Anthropic激动地表示：

他们这一方法很可能克服AI不可解释性这一巨大障碍。

而一旦我们能够了解语言模型的工作原理，就能很容易地判断一个模型是否安全，从而决定它是否应该被社会和企业所采用。

具体来看。

用字典学习分解语言模型

首先，光针对语言模型来说，它的不可解释性主要体现在网络中的大多数神经元都是“多语义的”。

即它们可以对多个不相关的事物进行响应。

例如，一个小型语言模型中的某个神经元会同时对学术引文、英语对话、HTTP请求、韩语文字等不同内容表现出强烈的激活状态。

而这会阻碍我们了解神经网络每一小部分的具体功能和交互过程，从而无法对整个网络的行为进行推断。

那么，是什么原因造成了多语义性这一特征？

早在去年，Anthropic就推测其中一个潜在的因素是“叠加”（superposition）。

这指的是模型将许多不相关的概念全部压缩到一个少量神经元中的操作。

同时，Anthropic也指出，字典学习——就是提取事物最本质的特征，最终让我们像查字典一样获取新知识，是解决这一问题的办法。

在此之前，他们已提出了一个叠加玩具模型，并证明：

如果一个对模型有用的特征集在训练数据中是稀疏的，那么该神经网络在训练过程中可以自然地产生叠加。

基于该玩具模型，他们提出了三种策略来找到一组稀疏且可解释的特征：一是创建没有叠加的模型，然后通过鼓励激活稀疏性；

二是使用字典学习在表现出叠加的模型中找到超完备的特征基础；

三是将前两种方法混合使用。

经过实验证明，方法一不足以杜绝多语义性，方法二则存在严重的过拟合问题。

于是在此，团队又采用了一种称为稀疏自动编码器的弱字典学习算法。

它能够从经过训练的模型生成学习特征，提供比模型神经元本身更单一语义的分析单元。

总的来说，该算法建立在大量先前的成果之上，尤其是在神经网络激活上使用字典学习的相关方法，以及解耦（disentanglement）相关的内容。

最终所得编码器在从叠加中提取可解释性特征方面取得了“令人信服的成功”。

具体来说，Anthropic采用一个具有512个神经元的MLP单层transformer，通过在具有80亿个数据点的MLP激活上训练稀疏自动编码器，最终将MLP激活分解为相对可解释的特征，扩展因子范围可以从1x（512个特征）增长到256x（131072个特征）。

Anthropic团队将他们得到的可解释性分析全部集中在一个称为A/1的运行中，共包含4096个特征，每个特征都注明了含义，它们可以按照预期被人工激活。

下面是它们的可视化图表：

集成长篇报告发布，7个关键结论

现在，Anthropic将以上全部成果以报告的形式发布。

报告题目为《迈向单义性：通过字典学习分解语言模型》（Towards Monosemanticity: Decomposing Language Models With Dictionary Learning）。

篇幅非常长，共分为四部分，分别为：

问题设置，阐述研究动机，以及他们训练的transformer和稀疏自动编码器。
特征详细调查，即“存在性证明”，证明他们发现的特征确实是功能上特定的因果单元。
全局分析，表明所得特征是可解释的，并且它们能够解释MLP层的重要部分。
现象分析，描述特征的几个属性，包括特征分割性、普遍性等，以及它们如何形成一个有趣的、类似“有限状态自动机”的系统。

总的来看，关键结论一共有7个：

1、我们能够用稀疏自动编码器提取相对单一语义的特征，但大多数学习到的特征都是相对可解释的。

2、稀疏自动编码器产生可解释的特征，在神经元基础中基本是不可见的。

3、稀疏自动编码器功能可用于干预和引导transformer的生成。

例如，激活Base64特征会导致模型生成Base64文本，激活阿拉伯文字特征会生成阿拉伯文本。

4、稀疏自动编码器产生相对通用的特征。特征彼此之间的相似性比它们与自己模型神经元之间的相似度更高（对应“普遍性”一节）。

5、当我们增加自动编码器的大小时，特征似乎会“分裂”。比如一个小型字典中的Base64特征在较大的字典中会分成三个，每个都具有更微妙但仍可解释的含义（对应“特征分割性”一节）。

6、仅512个神经元就可以代表数万个特征。

7、特征可以在类似“有限状态自动机”的系统中实现连接，从而完成复杂的行为（比如生成HTML功能）。

One More Thing

在评论区，有网友评价：

神经元就像一个神秘的盒子，Anthropic这项工作就相当于研究如何偷看盒子中的内容。

显然，这项工作还只是一个开头——

Anthropic同时还在加紧招聘可解释性相关的研究员和工程师。

点开来看，薪资在25万美元（约180万元）-52万美元之间，研究内容跟如上报告息息相关。

报告链接：

https://transformer-circuits.pub/2023/monosemantic-features/index.html

参考链接：

https://twitter.com/anthropicai/status/1709986949711200722

— 完—

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

pdf转ofd格式工具有哪些？推荐这5款，先收藏！

OFD转换器：是一种软件工具，用于将OFD文件格式转换为其他可编辑的文件格式，如Word、PDF、Excel、HTML、TXT、XPS、JPG、PNG等常见的pdf转换功能包括pdf转ofd、ofd转pdf、jpg转ofd以及ofd转图片等，那么支持pdf转ofd格式工具有哪些呢？哪些ofd转换器简单好用，易于小白用户使用？本文整理了关于pfd转ofd的工具和操作方法，有需要实现ofd转换的用户可以往下了解下！方法一、金舟OFD转换器金舟OFD转换器有高度的准确性，能够确保转换后的文件与原始OFD文件保持

金舟软件 2024-12-26

GThugz 2024-12-26

【新疆无人机培训】无人机革新农业：精准监测与高效喷洒农药的科技前沿

新疆保华润天航空无人机培训中心：在现代农业生产中，科技的力量日益凸显，尤其是无人机和低空飞行器的应用，正在为农林植保带来前所未有的变革。这些高科技设备不仅提高了农业生产的效率和质量，还在环境保护和灾害管理方面展现出巨大的潜力。精准农业监测是无人机和低空飞行器的一大亮点。通过搭载高清摄像头和多光谱传感器，这些飞行器能够对农田进行详细的图像采集和数据分析，从而实现对作物健康状况的实时监控。农民可以根据这些信息调整灌溉、施肥和病虫害防治策略，确保作物生长的最佳状态。农药喷洒是另一个重要的应用场景。传统的人工喷洒

保华润天青少年无人机 2024-12-26

数智创新，引导财务共享建设新方向

在当今数智化浪潮席卷各行各业的大环境下，财务共享建设已然成为企业财务变革中的关键驱动力量。《关于全面深化管理会计应用的指导意见财会〔2024〕22号》（下称“文件”）中的相关精神，进一步提升财务共享服务中心建设水平，将在下一阶段被众多企业视作财务领域的核心战略工作。标准先行，数据筑基原文：提升财务共享服务中心建设水平。研究制定财务共享服务中心标准，为满足各类业务需求和管控要求提供高质量数据来源，推动财务共享服务中心向单位数据中心的升级。解读：财务共享服务标准化的精细化程度与适用性匹配，对于财务

用友 2024-12-26

【新疆无人机培训】无人机在基础设施安全监测中的创新应用

新疆保华润天航空无人机培训中心：在现代社会，基础设施的健康运行对于经济发展和社会稳定至关重要。然而，传统的基础设施巡检方法往往耗时耗力，且存在一定的安全风险。幸运的是，随着无人机技术的飞速发展，这一领域迎来了革命性的变革。无人机以其独特的优势，正在逐步替代传统的人工巡检方式。它们能够轻松到达偏远地区，甚至是人类难以接近的危险地带，进行高效的巡检工作。例如，在电网巡检中，无人机可以快速定位故障点，减少停电时间；在油气管道巡查中，它们能及时发现泄漏等安全隐患，保障能源供应的安全。除了提高效率和安全性外，无人机

新疆无人机培训步煜天 2024-12-26

用友马来西亚受邀参加2024马中峰会

马来西亚中国峰会2024（MCS 2024）于12月17日至19日在吉隆坡马来西亚国际贸易展览中心（MITEC）圆满举行。用友作为全球领先的企业数智化软件与服务提供商，以及中国软件企业的代表，受邀参会，并在峰会上展示全新一代的企业数智化商业创新平台用友BIP。本次峰会是马中两国建交50周年的重要里程碑，充分展现了双方共同推动繁荣与可持续发展的巨大潜力。开幕仪式由交通部长陆兆福主持，嘉宾包括中国驻马大使欧阳玉靖、大马对外贸易发展局总执行长拿督莫哈末慕斯达法，以及2024年马中峰会专员总监拿督陈耀宗

用友 2024-12-26

8566模具钢主力解决崩裂问题，PM23主力解决磨损问题。第534篇

从昨天到今天，有位汪先生一直在问我8566和PM23有什么区别。8566模具钢是誉辉专有的一款防崩钢，PM23是一款粉末冶炼的高速钢，他们的擅长领域和使用范围是不同的。从昨天聊到今天，他一直没有告诉我他的模具工况、模具用料、失效形式。虽然我多次追问，他就是不肯说，我也没办法确定他模具遇到什么问题，模具需要什么性能，到底是PM23粉末高速钢适合还是8566合适。他一直在追问这2款材料有什么区别，就借着这个机会说一说。 [图片] 8566防崩钢和PM23粉末高速钢，它们的设计理念、合金成分、

模具钢大王吴德剑 2024-12-26

天泽智联“皖云焊”助力安徽省电气焊安全监管

近期，天泽智联创新推出了“皖云焊”安全监管应用平台，该平台目前已作为省级电气焊监管平台正式上线，为规范、提升安徽省电气焊作业全链条安全管理能力提供了有效助力和抓手。 “皖云焊”极具特色、亮点突出。“六大”特点开创了电气焊安全监管的新模式。 [图片] 一、开关机语音提醒，强化源头安全管理 “焊接千万次，安全每一次，皖云焊提醒您，请清除周边易燃易爆物品，确保作业环境安全……”“请查看并清理作业现场，确保无明火，无焊渣废料，排除火灾隐患，关闭电源……”每当焊工通过扫码开启或关闭焊机时，平台都会通过语音提醒操作人

天泽智联 2024-12-26

分解大模型的神经元！Claude团队最新研究火了，网友：打开黑盒

推荐体验

相关资讯

打破大模型黑盒，彻底分解神经元，OpenAI对头Anthropic击破AI不可解释性障碍

OpenAI震撼研究：用GPT-4解释30万神经元，用AI打开AI黑盒

OpenAI震撼研究：用GPT-4解释30万神经元，原来AI的黑盒要AI自己去打开

神经元数量与智能的关系

gpt2有307200个神经元，那依次推测gpt3有3584万神经元？GPT4有1.024亿个神经元？

近期资讯

pdf转ofd格式工具有哪些？推荐这5款，先收藏！

【新疆无人机培训】从天空俯瞰世界：低空旅游的无限潜力与魅力解析

高中物理108个优质二级结论及题型总结

Enscape云渲染

【新疆无人机培训】无人机革新农业：精准监测与高效喷洒农药的科技前沿

数智创新，引导财务共享建设新方向

【新疆无人机培训】无人机在基础设施安全监测中的创新应用

用友马来西亚受邀参加2024马中峰会

8566模具钢主力解决崩裂问题，PM23主力解决磨损问题。第534篇

天泽智联“皖云焊”助力安徽省电气焊安全监管

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响