钛媒体App 5月10日消息,OpenAI在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。他们调用GPT-4来计算出其它架构更简单的语言模型上神经元的行为,这次针对的是发布于4年前的开源大模型:GPT-2。目标是用AI来帮助我们理解AI,简单来讲,就是希望能够使用自动化的方式,让机器完成AI研究。据悉,这项工作也是OpenAI对齐研究的第三支柱的一部分:希望对齐研究本身实现自动化。并且这一方向(对齐)还有望随着人工智能的发展速度而扩展。
OpenAI表示,它的工作方式包括在每个神经元上运行3个步骤:第一步,生成解释使用GPT-4。第二步,使用GPT-4进行模拟;即用GPT-4模拟这个GPT-2的神经元接下来会做什么。第三步,对比评估打分;即根据模拟激活与真实激活的匹配程度为解释打分。通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。成果显示,最终OpenAI对GPT-2中307200个神经元全部进行了解释,并将这些解释汇编成数据集,与工具代码一起在GitHub上发布。
不过,OpenAI还表示,目前GPT-4的解释效果并不佳,尤其要解释比GPT-2更大的模型时表现效果很差。但是,OpenAI相信可以使用机器学习技术进一步提高产生解释的能力:比如通过反复产出解释,并根据激活情况修改解释;使用更大的模型作出解释;以及调整已解释模型的结构等。