参考消息网7月22日报道 据美国《财富》杂志网站7月20日报道,斯坦福大学的一项研究发现,广受关注的聊天机器人ChatGPT在6月份执行某些任务的表现比3月份的时候变得更糟了。
该研究对由开放人工智能研究中心(OpenAI)创造的这款聊天机器人数月时间内在执行4项“差异化”任务——解数学题、回答敏感问题、编写软件代码、视觉推理——的表现进行了比较。
研究人员发现这项技术执行某些任务的能力存在巨大波动——即“漂移”。该研究考察了OpenAI技术在这一时间段的两个版本:GPT-3.5和GPT-4。最值得注意的结果来自对GPT-4解答数学题能力的研究。在研究过程中,研究人员发现,在3月份时GPT-4能够在97.6%的答题时间里正确识别出数字17077为质数。但是仅仅3个月后,其答题的正确率却骤降至极低的2.4%。与此同时,GPT-3.5的表现轨迹则几乎相反,其在3月时回答同一问题的正确率仅为7.4%,而在6月时的回答大多是正确的,答题正确率达86.8%。
当研究人员要求这两个版本编写代码和接受视觉推理测试——即要求该技术预测某个图案中的下一个形象——时,出现了类似的差异化结果。
研究报告的作者之一、斯坦福大学计算机科学教授詹姆斯·邹(音)说,“如此巨大的差异程度”对于“尖端的ChatGPT”而言是意想不到的。
詹姆斯·邹说:“当我们在对大型语言模式进行调整,以改善其在某些任务中的表现时,这样做实际上可能会有许多意想不到的后果,它们或许会影响这个模型在处理其他任务时的表现。在人工智能模型如何回答问题方面,存在各式各样耐人寻味的相互依赖,它们可能在一定程度上导致我们所观察到的这些每况愈下的表现。”