用AI解释AI，大语言模型的黑箱会被OpenAI打开吗？

作者：南方都市报发布时间：2023-05-12

当人们谈到大语言模型，除了关注其惊人的发展速度之外，还对它的黑箱特质感到好奇——因为即使对于数据科学家来说，也很难“参透”一个大语言模型背后的行为逻辑，即缺少“可解释性”，难以将模型内部运行的逻辑转化成具备逻辑关系、可叙述的语言。

但这种困境可能将被打破。当地时间5月9日，OpenAI发布了一个关于GPT-4语言模型解析神经元的对齐性研究成果，利用自研基于GPT-4技术的开源工具，来尝试计算其他架构、更简单语言模型上神经元的行为并对其进行评分。目前，这一技术代码已经在github上开源。

由于可解释性传统的一种简单方法是了解AI模型各个组件在做什么，其中一种方法是人类手动检查神经元，以确定它们代表数据的哪些特征。但这个过程很难扩展，将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。因此，OpenAI的这一尝试或许将大大降低该过程的成本。

而更引人注目的是，OpenAI使用GPT-4生成神经元行为的自然语言解释、且将其应用于 GPT-2作为实验样本，并对其进行评分，另外，OpenAI还公开了这些 GPT-2神经元解释和分数的数据集。

OpenAI的可解释性团队经理威廉·桑德斯表示，“我们正试图开发方法预测人工智能系统可能出现什么问题，并信任模型正在做的事情以及它产生的答案。”

这一次OpenAI用GPT-4来研究GPT-2，就是希望能够让人工智能来帮助人们理解人工智能，利用机器提高数据的准确性。研究文章称这是其对齐研究的第三支柱的一部分。而“第三支柱”出于OpenAI于2022年发布的《我们做对齐研究的方法》，其中提到OpenAI进行具体对齐研究时由三大支柱支撑：利用人工反馈训练AI、训练AI系统协助人类评估、训练AI系统进行对齐研究。

具体到本次研究成果上，OpenAI 开发了一套包含自动化工具和测试方法的评估流程：

首先，研究人员让GPT-2运行文本序列，等待某个特定神经元被频繁“激活”;
然后让GPT-4针对一段文本生成解释，例如通过GPT-4接收到文本和激活情况判断漫威是否与电影、角色和娱乐有关;
随后用GPT-4 模拟GPT-2的神经元接下来会做什么，预测行为;
最后评估打分，对比GPT-4模拟神经元和GPT-2真实神经元的结果的准确度。。

“使用这种方法，我们基本上可以为每个神经元提供一些初步的语言解释，说明它在做什么以及对其进行评分，评估这个解释与它实际的行为匹配得有多好，”OpenAI可扩展对齐团队的负责人杰夫·吴说。在此次公布的研究中，研究人员能够为GPT-2中的所有307,200个神经元生成解释，并将它们编译成一个数据集，与工具代码一起发布。

研究人员说，像这样的工具有朝一日可以用来提高大语言模型的性能，例如减少偏见或有害性。但他们同时承认，在真正发挥作用之前，它还有很长的路要走。目前，该工具对GPT-2中大约1000个神经元的解释很有信心，但这只是GPT-2中神经元总数的一小部分。

“大多数（GPT-4对GPT-2进行的）解释得分很低，或者不能解释神经元的实际行为。”吴说。“例如，许多神经元以一种很难解释的方式活跃——它们在五六个不同的事物上都被激活了，但没有明显的行为模式或缘由。有时，这些神经元则表现出了可识别的模式，但GPT-4无法发现它。”

“我们希望这将开辟一条有前途的道路，以自动化的方式解决可解释性问题，其他人可以在此基础上作出贡献，”吴说。“我们希望之后，人工智能不仅能很好地解释神经元对什么作出反应，而且能从总体上解释这些模型的行为——它们在计算什么样的逻辑通路，以及神经元之间如何互相影响。”

OpenAI 联合创始人格雷格·布洛克曼则表示：“我们迈出了使用 AI 进行自动化对齐研究的重要一步。”

采写：南都记者胡耕硕