当人们谈到大语言模型,除了关注其惊人的发展速度之外,还对它的黑箱特质感到好奇——因为即使对于数据科学家来说,也很难“参透”一个大语言模型背后的行为逻辑,即缺少“可解释性”,难以将模型内部运行的逻辑转化成具备逻辑关系、可叙述的语言。
但这种困境可能将被打破。当地时间5月9日,OpenAI发布了一个关于GPT-4语言模型解析神经元的对齐性研究成果,利用自研基于GPT-4技术的开源工具,来尝试计算其他架构、更简单语言模型上神经元的行为并对其进行评分。目前,这一技术代码已经在github上开源。
由于可解释性传统的一种简单方法是了解AI模型各个组件在做什么,其中一种方法是人类手动检查神经元,以确定它们代表数据的哪些特征。但这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。因此,OpenAI的这一尝试或许将大大降低该过程的成本。
而更引人注目的是,OpenAI使用GPT-4生成神经元行为的自然语言解释、且将其应用于 GPT-2作为实验样本,并对其进行评分,另外,OpenAI还公开了这些 GPT-2神经元解释和分数的数据集。
OpenAI的可解释性团队经理威廉·桑德斯表示,“我们正试图开发方法预测人工智能系统可能出现什么问题,并信任模型正在做的事情以及它产生的答案。”
这一次OpenAI用GPT-4来研究GPT-2,就是希望能够让人工智能来帮助人们理解人工智能,利用机器提高数据的准确性。研究文章称这是其对齐研究的第三支柱的一部分。而“第三支柱”出于OpenAI于2022年发布的《我们做对齐研究的方法》,其中提到OpenAI进行具体对齐研究时由三大支柱支撑:利用人工反馈训练AI、训练AI系统协助人类评估、训练AI系统进行对齐研究。
具体到本次研究成果上,OpenAI 开发了一套包含自动化工具和测试方法的评估流程:
“使用这种方法,我们基本上可以为每个神经元提供一些初步的语言解释,说明它在做什么以及对其进行评分,评估这个解释与它实际的行为匹配得有多好,”OpenAI可扩展对齐团队的负责人杰夫·吴说。在此次公布的研究中,研究人员能够为GPT-2中的所有307,200个神经元生成解释,并将它们编译成一个数据集,与工具代码一起发布。
研究人员说,像这样的工具有朝一日可以用来提高大语言模型的性能,例如减少偏见或有害性。但他们同时承认,在真正发挥作用之前,它还有很长的路要走。目前,该工具对GPT-2中大约1000个神经元的解释很有信心,但这只是GPT-2中神经元总数的一小部分。
“大多数(GPT-4对GPT-2进行的)解释得分很低,或者不能解释神经元的实际行为。”吴说。“例如,许多神经元以一种很难解释的方式活跃——它们在五六个不同的事物上都被激活了,但没有明显的行为模式或缘由。有时,这些神经元则表现出了可识别的模式,但GPT-4无法发现它。”
“我们希望这将开辟一条有前途的道路,以自动化的方式解决可解释性问题,其他人可以在此基础上作出贡献,”吴说。“我们希望之后,人工智能不仅能很好地解释神经元对什么作出反应,而且能从总体上解释这些模型的行为——它们在计算什么样的逻辑通路,以及神经元之间如何互相影响。”
OpenAI 联合创始人格雷格·布洛克曼则表示:“我们迈出了使用 AI 进行自动化对齐研究的重要一步。”
采写:南都记者胡耕硕