OpenAI炸裂新作：GPT-4破解GPT-2大脑，30万神经元全被看透

作者：新智元发布时间：2023-05-10

OpenAI GPT-4

刚刚，OpenAI发布了震惊的新发现：GPT-4，已经可以解释GPT-2的行为！

大语言模型的黑箱问题，是一直困扰着人类研究者的难题。

模型内部究竟是怎样的原理？模型为什么会做出这样那样的反应？LLM的哪些部分，究竟负责哪些行为？这些都让他们百思不得其解。

万万没想到，AI的「可解释性」，竟然被AI自己破解了？

网友惊呼，现在AI能理解AI，用不了多久，AI就能创造出新的AI了。

就是说，搞快点，赶紧快进到天网吧。

GPT-4破解GPT-2黑箱之谜

刚刚，OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》（Language models can explain neurons in language models），震惊了全网。

论文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

只要调用GPT-4，就能计算出其他架构更简单的语言模型上神经元的行为。

GPT-2，就这样被明明白白地解释了。

要想研究大模型的「可解释性」，一个方法是了解单个神经元的具体含义。这就需要人类手动检测神经元，但是，神经网络中有数百亿或数千亿个神经元。

OpenAI的思路是，对这个过程进行自动化改造，让GPT-4对神经元的行为进行自然语言解释，然后把这个过程应用到GPT-2中。

这何以成为可能？首先，我们需要「解剖」一下LLM。

像大脑一样，它们由「神经元」组成，它们会观察文本中的某些特定模式，这就会决定整个模型接下来要说什么。

比如，如果给出这么一个prompt，「哪些漫威超级英雄拥有最有用的超能力？」「漫威超级英雄神经元」可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定，把模型分解为单独的部分。

第一步：使用GPT-4生成解释

首先，找一个GPT-2的神经元，并向GPT-4展示相关的文本序列和激活。

然后，让GPT-4根据这些行为，生成一个可能的解释。

比如，在下面的例子中GPT-4就认为，这个神经元与电影、人物和娱乐有关。

第二步：使用GPT-4进行模拟

接着，让GPT-4根据自己生成的解释，模拟以此激活的神经元会做什么。

第三步：对比打分

最后，将模拟神经元（GPT-4）的行为与实际神经元（GPT-2）的行为进行比较，看看GPT-4究竟猜得有多准。

还有局限

通过评分，OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型，这项技术的解释效果就不佳，可能是因为后面的层更难解释。

目前，绝大多数解释评分都很低，但研究者也发现，可以通过迭代解释、使用更大的模型、更改所解释模型的体系结构等方法，来提高分数。

现在，OpenAI正在开源「用GPT-4来解释GPT-2中全部307,200个神经元」结果的数据集和可视化工具，也通过OpenAI API公开了市面上现有模型的解释和评分的代码，并且呼吁学界开发出更好的技术，产生得分更高的解释。

此外，团队还发现，越大的模型，解释的一致率也越高。其中，GPT-4最接近人类，但依然有不小的差距。

以下是不同层神经元被激活的例子，可以看到，层数越高，就越抽象。

把AI的对齐问题，交给AI

这项研究，对于OpenAI的「对齐」大业，意义重大。

在2022年夏天，OpenAI就曾发布博文「Our approach to alignment research」，在那篇文章中，OpenAI就曾做出预测：对齐将由三大支柱支撑。

1、利用人工反馈训练 AI

2、训练AI系统协助人类评估

3、训练AI系统进行对齐研究

在前不久，万名大佬联名签署公开信，要求在六个月内暂停训练比GPT-4更强大的AI。

Sam Altman在一天之后，做出的回应是：构建更好的通用人工智能，就需要有对齐超级智能的技术能力。

究竟怎样让AI「与设计者的意图对齐」，让AGI惠及全人类？

今天的这项研究，无疑让OpenAI离目标更迈进了一步。

Sam Altman转发：GPT-4对GPT-2做了一些可解释性工作

OpenAI的对齐团队负责人也表示，这是一个新的方向，可以让我们同时获得：

详细理解模型到单个神经元的层

运行整个模型，这样我们就不会错过任何重要的东西

令人兴奋的是，这给了我们一种衡量神经元解释好坏的方法：我们模拟人类如何预测未来的模式，并将此与实际的模式进行比较。

目前这种衡量方式并不准确，但随着LLM的改进，它会变得更好。

虽然现在还处于初期阶段，但已经展现了一些有趣的趋势：

后期的层比早期的更难解释

简单的预训练干预可以提高神经元的可解释性

简单的技巧，如迭代细化，可以改进解释

OpenAI可解释性团队负责人William Saunders也表示，团队希望开发出一种方法，来预测AI系统会出现什么问题。「我们希望能真正让这些模型的行为和生产的回答可以被信任。」

有趣的神经元

在这个项目中，研究者还发现了许多有趣的神经元。

GPT-4为一些神经元做出了解释，比如「比喻」神经元、与确定性和信心有关的短语的神经元，以及做对事情的神经元。

这些有趣的神经元是怎么发现的？策略就是，找到那些token空间解释很差的神经元。

就这样，背景神经元被发现了，也就是在某些语境中密集激活的神经元，和许多在文档开头的特定单词上激活的神经元。

另外，通过寻找在上下文被截断时以不同方式激活的上下文敏感神经元，研究者发现了一个模式破坏神经元，它会对正在进行的列表中打破既定模式的token进行激活（如下图所示）。

研究者还发现了一个后typo神经元，它经常在奇怪或截断的词之后激活。

还有某些神经元，似乎会在与特定的下一个token匹配时被激活。

比如，当下一个标记可能是「from」时，一个神经元会被激活。

这是怎么回事？起初研究者猜测，这些神经元可能是根据其他信号对下一个token进行预测。然而，其中一些神经元并不符合这种说法。

目前，研究者还没有进行足够的调查，但有可能许多神经元编码了以特定输入为条件的输出分布的特定微妙变化，而不是执行其激活所提示的明显功能。

总的来说，这些神经元给人的主观感觉是，更有能力的模型的神经元往往更有趣。

网友：OpenAI，搞慢点吧

毫不意外地，网友们又炸了。

咱就是说，OpenAI，你搞慢点行不？

在评论区，有人祭出这样一张梗图。

这就是传说中的「存在主义风险神经元」吧，只要把它关掉，你就安全了（Doge）。

ChatGPT从互联网中学习，现在它正在创造更多的互联网。很快，它就会自我反哺，真正的天网就要来临。

听说GPT-5已经达到奇点，并且它正在与地外生命谈判和平条约。

有网友恶搞了一个关于「Yudkowsky」的解释，他一直是「AI将杀死所有人」阵营的主要声音之一。

之前「暂停AI训练」公开信在网上炒得沸沸扬扬时，他就曾表示：「暂停AI开发是不够的，我们需要把AI全部关闭！如果继续下去，我们每个人都会死。」

他知道我们在计划什么

我们必须不惜一切代价让他丧失信誉

一旦他走了，就没有人能够反对我们了

「Eliezer Yudkowsky看到这一幕，一定又笑又哭——让我们使用自己不能信任的技术来告诉我们，它是如何工作的，并且它是对齐的。」

现在，人类反馈强化学习（RLHF）是主场，当AI懂了AI，将会在微调模型上开辟一个新纪元：

人工智能反馈的神经元过滤器（NFAIF）

参考资料：

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

本文来自微信公众号“新智元”（ID：AI_era），作者：新智元，36氪经授权发布。

近期资讯

狼团联盟2024视频号带货，0基础小白快速入局视频号。

课程内容：1课前必读,mp42 2视频号基础功能讲解,mp43 3视频号创作者分成讲解,mp44 4视频号保证金，带货权限，直播权限解读,mp45 5如何制作引导下单的视频.mp46 1剪映全套教程,mp47.2视频来源,mp48 3如何给短视频配音.mp410 5搬运混萝方法-.mp411 6搬运混剪方法二.mp412 7搬运混剪方法三.mp413 8如何给视频抽帧补帧.mp414 9短视频变声，配音的两种方法.mp415 1如何获取原创的实拍素材.mp416 2如何发布爆款视频.mp419 5如何设置

凌零网创 2024-12-29

拥抱AI，大有可为 —— 迈维云平台智能客服上线啦！

随着AI技术的蓬勃发展，它正悄然改变着我们的生活和工作方式。从智能家居到无人驾驶，AI的应用场景日益广泛。今天，为了更好地服务于每一位用户，解决大家在使用云平台过程中可能遇到的各种问题，我们自豪地宣布：云平台智能客服——小维博士正式上线啦！下面我们一起认识一下这位新朋友吧~Q小维博士是谁？A小维博士是我们为云平台量身定制的智能客服助手。她融合了丰富的知识库与出色的数据理解能力，能为您提供清晰易懂的解决方案。Q小维博士在哪里？A登录迈维云平台https://cloud.metware.cn/ ，在页面的右下

迈维医学 2024-12-29

生物医药创新论坛来袭！2025生物医药创新技术与应用发展论坛3月济南举办

生物医药创新论坛来袭！2025生物医药创新技术与应用发展论坛3月济南举办生物医药产业是国家战略性新兴产业，更是厚植新质生产力的重要领域。近年来我省立足特色地域优势，把现代医药列入全省首批重点产业链重点培育，推动生物医药产业取得较快发展。涵盖化学药、中药、生物制品、生物治疗等较为健全的医药工业体系，有力助推深化全方位转型发展。 [图片] 2025生物医药创新技术与应用发展论坛暨展览会，由天津市生物医药行业协会、BIO CHINA 生物发酵展组委会主办，山东信世会展服有限公司承办，将于2025年3月3-5日

上海生物发酵展 2024-12-29

2025年长安汽车目标300万辆将推13款新能源车

日前，2025长安汽车全球伙伴大会在重庆举行。献礼长安造车40周年，回顾了今年的成绩，也展望了明年的计划。据官方介绍，2024年长安汽车全年累计销量268.3万辆，同比增长5.1%。其中自主品牌销量223.1万辆，同比增长6.3%。新能源销量73.3万辆，同比增长52.4%。海外销量53万辆，同比增长47.9%。面对即将来到的2025年，王俊表示，长安汽车预计销量将超过300万辆，市占率升至9.4%；预计2025年长安汽车采购额将达到1487亿元，同比增长8.9%。并且还将坚定打造经典产品，全面HEV化燃

辣车TV 2024-12-29

姜宏锋：采购降本的5项障碍

采购降本，是什么？是老板心中若隐若现的猜疑？是销售业绩不力的借口？是管理层压力下每年确定的课题？是供应商每年的噩梦、改进的压力？是采购人员内心的煎熬、专业的考卷、简历上的荣光？谈到采购降本，企业人往往又爱又恨，当然爱者少之又少，恨者十有八九。但企业无法回避这一课题。一是现在企业外部环境艰难，存量市场残酷内卷。市场不佳，采购成本太高就成了本企业销售不力最好的理由，所以管理层与采购必须给出降本回应。二是采购支出占企业支出的大头，采购省下的都是净利润，采购降本对利润率提升具有明显的杠杆效应。一家

优链智达 2024-12-29

iphone提词器在哪里

秒提词 app：iOS 用户的专业提词神器在如今这个信息爆炸的时代，无论是短视频创作者、直播达人还是演讲高手，一款好用的提词器对于 iOS 用户来说都是必不可少的。而秒提词 app，无疑是您在众多提词器应用中的最佳选择。 iPhone 有提词器吗当然有！iPhone 本身虽然没有自带专业的提词器功能，但通过下载安装秒提词 app，您就能轻松拥有强大的提词功能，满足您在各种场景下的提词需求。 iOS 提词器在哪里 iOS 提词器就在您的 App Store 中。只需打开 App Store，在搜索栏输入

秒提词 2024-12-29

航拍中国第三季笔记（宁夏）

宁夏回族自治区位于中国西北内陆六盘山和贺兰山分别矗立在他的南北两端宁夏南部是干旱少雨的黄土高原他的北部同时被三片沙漠包围穿行而过的黄河孕育出了富庶的塞上江南六盘山：宁夏也有黄土高原在他六万多平方公里的辖区内黄土地貌主要分布在南部土黄是这片高原的底色六盘山用森林的绿色来覆盖从60年前开始人们就意识到森林能守护水土一批批树苗被繁育出来种植几十年来造林工程从未中止每棵树留住降水又蒸腾作用提供条件让六盘山成为宁夏为数不多的天然水源地清水河：从他发源的河流当中清水河在宁夏的行

一根鱼刺刺 2024-12-29

瓷音未来Mars Air BRIEF耳机评测：颜值与音质的双重盛宴

在繁忙的都市生活中，音乐成为了我们不可或缺的伴侣。无论是通勤路上的片刻宁静，还是运动时的节奏带动，一款优秀的耳机总能为我们带来更加沉浸式的体验。今天，我要为大家带来的正是一款集颜值、音质与舒适于一身的开放式耳机——瓷音未来Mars Air BRIEF。这款耳机以其独特的皮革晒纹颜值、瓷音未来品牌的通透调音风格、LDAC高解码与大尺寸跑道型喇叭、定向聚音技术以及四麦通话与双设备连接等特性，赢得了众多音乐爱好者的喜爱。接下来，就让我们一起深入评测这款耳机吧!一、皮革晒纹的颜值：优雅低奢，尽显品味瓷音未来Mar

搞机么 2024-12-29

儿童电动牙刷的缺点有哪些？爆料三大副作用危害

近年来，儿童电动牙刷市场呈现出显著增长态势，然而众多家长对此类产品的认识尚浅，对其潜在风险知之甚少。当前市场上很多产品宣传护龈护牙，但孩子反馈牙龈出血。儿童电动牙刷虽说品牌众多，质量参差不齐，很多缺乏专业技术实力和分龄设计的产品，使用后导致孩子牙疼、牙齿损伤的案例持续上升。儿童电动牙刷的缺点有哪些？作为口腔健康领域的专业博主，我将提供安全可靠的解决方案，确保孩子们在享受良好刷牙体验的同时也能获得最佳的牙齿保健效果。下面是我近期测评过的部分产品：一、儿童电动牙刷的缺点儿童电动牙刷的缺点有哪些？儿童电动牙刷能

3大333 2024-12-29

扉乐、舒客、飞利浦儿童电动牙刷怎么样？怎么选？测评业内能者

儿童电动牙刷因其高效的清洁能力和使用上的便捷而成为许多家庭中儿童口腔卫生护理的首选工具。但是，市场上的电动牙刷品牌众多，质量也是良莠不齐。据研究，约70%的儿童在使用某些品牌的电动牙刷后感到不适，甚至出现了牙龈出血和牙齿损伤等问题。这些问题可能是由于使用了劣质产品，其缺乏分龄设计以及不均匀的刷毛或过硬的刷头，对孩子牙龈和牙齿造成额外的压力和摩擦，导致牙龈炎、牙齿敏感、牙龈出血等问题。作为一名专业的个护测评师，我将深入探讨市面上备受欢迎的儿童电动牙刷，帮助家长们为孩子挑选出一款高品质的儿童电动牙刷。接下来，

222小2 2024-12-29