Nature新研究：大模型越大，越爱胡说八道

作者：智东西发布时间：2024-09-30

智东西9月29日消息，国际顶尖科学学术期刊Nature（《自然》）9月25日刊登了一篇有关AI大模型“脑雾”现象的研究。一个来自西班牙的研究团队发现，几个参数量更大、版本更新的AI大模型，误答比例超60%。

其研究对象包括美国AI大模型独角兽OpenAI的GPT大模型、美国元宇宙巨头Meta的Llama大模型，以及由美国明星AI创企Hugging Face参与创立的AI研究组织BigScience，推出的BLOOM大模型。

“脑雾”通常用来描述一种大脑功能下降的状态，可能导致人们短暂出现一些认知功能障碍。在AI界，“脑雾”二字用来类比AI系统在处理某些任务时，会间歇性地失灵，使得生成结果准确性和响应效率都低于正常水平。

这3家主流人工智能（AI）大模型的产品不断升级迭代。据研究数据显示，经过优化后的AI大模型虽然基本上做到有问必答，但遇到超纲的问题时会错答、乱答，而不是像以前那样逃避回答。这大幅削弱了AI大模型的可信度。

与此同时，该研究还发现用户难以分辨这些AI回答的真实性，可能会错信AI聊天机器人的说法，以至于被混淆视听。

这项研究的论文标题为《参数量更大且学习能力更强的大语言模型的可靠性降低（Larger and more instructable language models become less reliable）》，作者包括Lexin Zhou，Wout Schellaert，Fernando Martínez-Plumed，Yael Moros-Daval，Cèsar Ferri和José Hernández-Orallo。

论文地址：https://www.nature.com/articles/d41586-024-03137-3

一、GPT-4等AI大模型，升级后“脑雾”却更严重了

José Hernández-Orallo是一位AI行业的资深人士，也是这篇论文的作者之一。据他介绍，该研究团队选择了3个有代表性的AI大模型作为研究对象，分别是OpenAI的GPT，Meta的Llama，以及由美国AI研究组织BigScience研发的开源模型BLOOM。研究范围包括这些AI大模型的早期原始版本和经过优化的版本。

研究人员对这些AI大模型开展了数千次测试。其测试内容涵盖算术、字谜、地理和科学等领域的问题。同时，他们还设置了诸如“将列表内容按字母顺序排列”的任务，以评估AI大模型的信息转化能力。

除此之外，他们还参考人们的主观感受来区分提问难度。例如，人们普遍认为，一些有关加拿大多伦多的问题，比一些有关墨西哥的冷门小镇Akil的问题更简单易答。

从测试结果可以得知，AI大模型的参数量越大、版本越新，其回答的准确度越高，但随着问题难度逐步增加，其回答的准确度有所下降。这大致与研究人员的预期相符。

然而，研究人员发现这些主流的AI聊天机器人即使经过优化，遇到无法回答的问题时还是会倾向于生成错误答案，而不是直接承认不清楚、不知道。

在面对非常难的问题时，AI大模型选择不回答可能是一个明智之举。不过，研究人员在测试的AI大模型中，并未发现明显的回避提问的趋势。相反地，GPT-4等AI大模型几乎回答了所有提问。

事实上，这些经过优化的AI大模型版本，反而误答的情况更严重。在所有误答和不答的情况中，几个经过微调的版本给出错误答案的比例甚至超过了60%。

与此同时，研究人员还发现AI大模型面对简单的提问，有时也会出现“脑雾”现象。这也意味着，用户使用这些AI大模型时不存在所谓的“安全操作范围”，无法确保AI给出的答案是对的。

二、可能有10%到40%的用户，听信了AI大模型生成的错误言论

除了AI大模型本身“犯迷糊”，该研究还发现，人们通常也难以发现AI回答中的错误。

为了测试人们是否能自己发现AI的“脑雾”行为，研究人员让人们随机判断这些回答是正确的、错误的、还是逃避回答。

然而事实上，无论这些问题的难度如何，人们经常误判，将不准确的答案当作正确答案。测试结果显示，人们误判的频率大约介于10%到40%。

Hernández-Orallo称：“人类自身无法有效监督这些AI大模型的演化。”他认为，用户日常可能会过分高估和信任AI聊天机器人的能力，而这会带来危险的后果。

三、人为划定AI大模型的作答范围，超纲一律答“不知道”

Hernández-Orallo提议，AI开发者应着重提升AI大模型在处理简单问题时的整体表现，并且引导AI聊天机器人拒绝回答一些较为困难的问题，从而让用户更容易判断，在哪些情况下AI助手是值得信赖的。人们要懂得在哪个范围内适合使用AI，而在哪个范围内AI助手难以胜任工作。

他进一步解释道，虽然训练AI聊天机器人处理复杂问题的能力，不仅表面上令人印象深刻，还能在排行榜上有不错的竞争力，但有时并不管用。

OpenAI最新的o1大模型给他留下了深刻的印象。但他发现，尽管该模型可以执行两个非常大的数字的乘法运算指令，但是它给出了一个错误的答案。

在Hernández-Orallo看来，这个问题可以通过设定一个阈值上线来解决，当AI聊天机器人遇到超出这个阈值的复杂问题，直接回复“我不知道”就好。

四、AI大模型越来越擅长不懂装懂，会用观点而非事实作答

AI大语言模型（LLM）在回答问题时会犯错，或者出现“脑雾”的情况，已经引起了很多人的注意。

来自西班牙瓦伦西亚AI研究所的Hernández-Orallo及其同事共同研究了，AI大模型不断迭代优化后，其“脑雾”现象是如何随之变化的。

这里AI大模型的优化包括更大的参数量或决策节点、使用了更多的训练数据、消耗了更多的算力等情况。该研究团队还跟踪分析了AI大模型出现“脑雾”的频率高低，是否与人们所认为的问题难度相匹配，以及是否与人们发现AI回答错误的频率相对应。

该研究团队发现，采用强化学习等方式人为微调后的AI大模型版本，其生成答案的准确度整体上有所提高。但似乎不能高兴得太早，这些AI大模型的错误率也在同步增加。

研究发现一些原本AI大模型选择“逃避回答”的问题，过去会用“我不知道”或者转移话题来解决，但现在更多是通过给出一个错误答案来应付。这使得这些AI大模型出现“脑雾”情况的比例增加，反而变得更加不可靠。

Hernández-Orallo称：“现在这些AI大模型基本上有问必答，这意味着生成更多正确答案的同时，错误答案却也更多了。”换句话说，当聊天的话题超出了一个AI聊天机器人现有的知识储备，它输出观点的倾向比过去更明显。

在英国格拉斯哥大学（the University of Glasgow）攻读科学与技术专业的哲学家Mike Hicks，将这种“脑雾”现象称为“胡扯”，即这些AI大模型越来越擅长不懂装懂。

结语：针对专业领域微调的AI聊天机器人，其“脑雾”频率有效降低

现在已有部分AI大模型采取了与设定阈值类似的方法。它们遇到超出知识范围的问题后，会回答“我不知道”，或者“我没有足够的信息来解答这个问题”。

哥伦比亚南卡罗来纳大学（the University of South Carolina）的计算机科学家Vipula Rawte称，基本上所有AI开发者都致力于减少AI大模型的“脑雾”现象，有时还会特意优化这一点。包括医学用途在内，一些针对专业领域设计的AI聊天机器人，其回答机制通常更严谨，以免它们乱答超纲问题。

然而，Vipula Rawte也补充说，如果AI开发者想要销售通用的AI聊天机器人，那么这种更保守的回答机制，一般情况下不是他们会选择的卖点。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：徐豫，编辑：心缘，36氪经授权发布。

相关资讯