OpenAI用GPT-4解读GPT-2，看来能打败魔法的，只有魔法

作者：元宇宙简史发布时间：2023-05-11

来源丨元宇宙简史

作者丨元宇宙简史编辑 Eco

【元宇宙导读】OpenAI最新研究利用GPT-4自动进行大语言模型中神经元行为的解释和评分，并将其应用于另一种语言模型GPT-2，公开了这些GPT-2神经元解释和分数的数据集。这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性，从而更好地理解智能是如何工作的。

大语言模型（LLM）是基于大量文本数据训练，包含数千亿或更多参数的语言模型。

在大数据时代，这类AI机器学习模型可以在提升产品销售、辅助人类决策过程中起到很大的作用。

但是计算机通常不会解释它们的预测结果，而语言模型想要变得更强大、部署更广泛，就需要研究可解释性，因为人类对模型内部工作原理的理解仍然非常有限，例如可能很难从中检测到有偏见、欺骗性内容输出。

可解释性就是将模型能用通俗易懂的语言进行表达，把模型的预测过程转化成具备逻辑关系的规则的能力，从而通过查看模型内部来发现更多信息。

例如，如果有一个针对“漫威超级英雄”的神经元，当用户向模型提问“哪个超级英雄的能力最强”时，这个神经元就会提高模型在回答中说出漫威英雄的概率。

站在OpenAI 的角度看，大模型未来将和人脑一样拥有“神经元”，这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。

所以可解释性就是将模型能用通俗易懂的语言进行表达，把模型的预测过程转化成具备逻辑关系的规则的能力，从而通过查看模型内部来发现更多信息。

为了实现这个目标，OpenAI最近发布了一个关于GPT-4语言模型解析神经元的对齐性研究成果，利用自研基于GPT-4技术的开源工具，来尝试计算其他架构、更简单语言模型上神经元的行为并对其进行评分。

而且，还可以将其应用于另一种语言模型中的神经元——本次选择4年前发布、包含307200个神经元的大模型GPT-2为实验样本，公开了这些GPT-2神经元解释和分数的数据集。

“我们迈出了使用 AI 进行自动化对齐研究的重要一步。”OpenAI 联合创始人 Greg Brockman表示。

具体来说，OpenAI开发了一套包含自动化工具和测试方法的评估流程：

首先，研究人员让GPT-2运行文本序列，等待某个特定神经元被频繁“激活”；

然后，让 GPT-4 针对一段文本生成解释，例如通过GPT-4接收到文本和激活情况判断漫威是否与电影、角色和娱乐有关；

随后用 GPT-4 模拟 GPT-2 的神经元接下来会做什么，预测行为；

最后评估打分，对比GPT-4模拟神经元和GPT-2真实神经元的结果的准确度，在下图这个例子中，GPT-4 的得分为0.34。

使用上述评分方法，OpenAI 开始衡量他们的技术对网络不同部分的效果，并尝试针对目前解释不清楚的部分改进技术。例如，他们发现以下方式有助于提高分数：

- 迭代解释。他们可以通过让 GPT-4 想出可能的反例，在根据其激活情况修改解释来提高分数；

- 使用更大的模型来进行解释。随着解释模型（explainer model）能力的提升，平均得分也会上升。然而，即使是 GPT-4 给出的解释也比人类差，这表明还有改进的余地；

- 改变被解释模型的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示，他们正在将GPT-4编写的对GPT-2中的所有307,200个神经元的解释的数据集和可视化工具开源，同时还提供了OpenAI API公开可用的模型进行解释和评分的代码，从而希望学术界能开发出新的技术来提升GPT模型解释分数。

OpenAI还发现，有超过 1000 个神经元的解释得分至少为0.8分，这意味着GPT-4模型可以解释大部分人类神经元，同时目前GPT理解的概念似乎和人类不太一样。例如，他们发现了一些有趣但 GPT-4 并不理解的神经元。

这些神经元似乎对文本中的某些特征或模式有敏感度，但是GPT-4无法用简单的语言描述它们。OpenAI希望随着技术和研究方法的改进，进一步提高AI模型可解释性能力，从而更好地理解这些神经元的行为和意义。

对于本研究局限性， OpenAI表示，目前GPT-4生成的解释还不完美，尤其要解释比GPT-2更大的模型时，表现效果很差。

神经元复杂行为无法用简短的自然语言描述，OpenAI 解释了神经元的这种行为，却没有试图解释产生这种行为的机制，而且整个过程算力消耗极大等。

OpenAI 希望在未来的工作中可以解决上述这些问题，最终OpenAI希望使用模型来形成、测试和迭代完全一般的假设，从而比肩人类大脑的想法和行为，以及将其大模型解释为一种在部署前后检测对齐和安全问题的方法。

然而在这之前，OpenAI还有很长的路要走。

“我们希望这将开辟一条有前途的途径。”Jeff Wu表示，这一技术可以让其他人可以在此基础上构建并做出贡献的自动化方案，从而解决 AI 模型可解释性问题，很好地解释这些模型行为，比如 AI 如何影响人类大脑中的神经元等。

严正声明：本文为元宇宙简史原创，未经授权禁止转载！内容仅供参考交流，不构成任何投资建议。任何读者若据此进行投资决策，风险自担。

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（33）——GPT-4解释GPT-2，魔法打败魔法

OpenAI最近做了个很有意思的新研究，用GPT-4来解释GPT-2：严格来说，这并不是学术论文，目前就是个网页，不过网页有网页的好处，即上面能演示很多实例。1.可解释性还是延续以往的风格，本系列专栏还是先唠嗑一些基础概念。可解释性也是之前提过很多次的话题了。之前我经常把很多模型比作一个复杂的函数，这个函数过于复杂，参数量众多，所以解释起来会很麻烦。再比如，一种解释性很好并且性能也不差的模型——决策树：应该很好理解吧，我们只要从树干循着条件一路找到叶子，就可以得到结果。但是一棵树有时候是不够的，我们想提高

GPT-4 OpenAI

花师小哲-中二 2023-05-11

AI黑盒“魔法对轰”！OpenAI神操作：让GPT-4去解释GPT-2

即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。而最近，OpenAI 似乎做到了——本周二，OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。

OpenAI GPT-4

2023-05-11

钛媒体APP 2023-05-10

OpenAI用GPT-4解读GPT-2，看来能打败魔法的，只有魔法

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（33）——GPT-4解释GPT-2，魔法打败魔法

AI黑盒“魔法对轰”！OpenAI神操作：让GPT-4去解释GPT-2

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了

如何用GPT-4来解释GPT-2的行为

OpenAI重磅研究！用GPT-4解析GPT-2样本，开启AI思考之门

近期资讯

MySQL外键类型与应用场景总结：优缺点一目了然

鸿蒙原生开发手记：04-一个完整元服务案例

reactHooks到底钩到了什么？

react18与react17有哪些区别

Python入门项目：一个简单的办公自动化需求

Android14 - SystemServer进程的启动与工作流程分析

2024-我赚到自媒体第一桶金

飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！

Apache Doris 创始人：何为“现代化”的数据仓库？

前端研发高德地图，如何根据经纬度获取地点名称和两点之间的距离？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响