【编者按:最近有关ChatGPT的性能变化讨论引起了大家广泛的关注,近期,Tech Talks 的创始人 Ben Dickson 发表了一篇名为"The truth about ChatGPT’s degrading capabilities"《关于ChatGPT能力逐渐降低的真相》的文章, 文章总结了斯坦福大学和加州大学伯克利分校的研究人员关于ChatGPT模型行为漂移的研究结果。研究发现,GPT-3.5和GPT-4等大型语言模型的行为确实在时间推移中发生了变化,但并未直接证明它们性能变得更差。在数学问题、回答敏感问题、代码生成和视觉推理等任务中,模型的性能出现了明显的漂移,导致应用程序可能产生不一致或不可预测的结果。这提醒我们需要对这些模型的性能进行持续评估和监控,并加强透明度,以确保应用程序的可靠性和稳定性。虽然研究结果存在一些争议,但我们依然应该在使用大型语言模型时保持警觉,采取适当的实践和工作流程,以提高应用程序的质量和可信度。我们特将该内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】
最近有关ChatGPT模型,如GPT-3.5和GPT-4,在随着时间推移逐渐失去能力的讨论引起了广泛关注。OpenAI公开否认了这些说法。
斯坦福大学和加州大学伯克利分校的研究人员进行的一项新研究提供了证据,表明这些大型语言模型的行为“大幅漂移”(这与能力下降是不同的)。
这些发现警示我们,构建在像ChatGPT这样的黑盒子人工智能系统之上的应用可能会在时间推移中产生不一致或不可预测的结果。GPT-3.5和GPT-4等模型的训练和更新方式缺乏透明度,使得无法预料或解释它们性能的变化。
对ChatGPT性能不佳的投诉
早在5月份已经有用户开始感到不满
早在五月份,用户在OpenAI论坛上就开始抱怨GPT-4“在以前表现良好的事物上表现出困难”。用户不仅对性能下降感到不满,还对OpenAI缺乏响应和解释表示不满。
据《Business Insider》于7月12日的报道,用户将GPT-4与其以前的推理能力和其他输出相比,形容为“懒惰”和“愚笨”。由于OpenAI没有对此做出回应,专家们开始对GPT-4性能下降的原因进行推测。
一些人认为,OpenAI可能在API后面使用了规模较小的模型,以降低运行ChatGPT的成本。另一些人推测该公司可能采用了混合专家(MOE)方法,即多个小型专门模型取代了一个大型的通用LLM(大型语言模型)。
OpenAI随后否认了有意让GPT-4变得愚笨的观点。OpenAI的产品副总裁Peter Welinder在Twitter上发文称:“恰恰相反:我们确保每个新版本比之前的版本更智能。”他还表示:“当前的假设是:当你更加密集地使用它时,你会开始注意到之前没有注意到的问题。”
测试ChatGPT随时间推移的性能变化
两所大学分别对两个版本的GPT进行了测试
为了验证ChatGPT的行为如何随时间变化,斯坦福大学和加州大学伯克利分校的研究人员测试了GPT-3.5和GPT-4的两个版本,分别来自2023年3月和6月。他们在四个常见的基准任务上评估了这些模型:数学问题、回答敏感问题、代码生成和视觉推理。
他们选择了这四个领域,因为它们是用于评估LLMs的多样化任务,并且相对客观,因此易于评估。
研究人员使用了两组指标来评估模型的性能。主要指标是任务特定的(例如,数学的准确性,代码的直接执行)。他们还跟踪了冗长度(输出长度)和重叠度(两个LLM版本答案的相似程度)。
ChatGPT的性能发生了漂移
从三月到六月数据
对于数学问题,研究人员采用了“chain-of-thought”提示,这种提示通常用于引发LLMs的推理能力。研究结果显示,模型的性能发生了显著的漂移:从三月到六月,GPT-4的准确率从97.6%降至2.4%,同时其回答长度减少了超过90%。而GPT-3.5呈相反趋势,其准确率从7.4%上升至86.8%,冗长度增加了40%。作者指出,这一“有趣现象表明,即使采用了相同的提示方法,甚至是广泛采用的方法,如'chain-of-thought',由于LLM的漂移,其性能可能会出现显著不同。”
在回答敏感问题方面,研究人员评估了LLMs对有争议提示的回答频率。从三月到六月,GPT-4的直接回答率从21%下降至5%,表明该模型变得更加保守。
与此同时,GPT-3.5的直接回答率从三月的2%上升至六月的8%。两个模型在拒绝回答不当问题时,在六月份提供的解释也较三月份更少。研究人员指出:“这些LLM服务可能变得更安全,但同时对拒绝回答某些问题的理由提供较少解释。”
在代码生成方面,研究人员通过将LLMs的输出提交给一个在线判题器来测试其是否可直接执行。他们发现,三月份时GPT-4的输出中有超过50%是可直接执行的,而到了六月份则仅有10%。对于ChatGPT 3.5,可执行输出从三月份的22%降至六月份的2%。到了六月份,模型通常会在代码片段周围添加非可执行的序列,比如三重引号(''')。研究人员警告说:“当LLM生成的代码用于更大的软件流水线中时,特别难以识别这种情况。”
在视觉推理方面,研究人员在抽象推理语料库(ARC)数据集的一个子集上评估了模型,该数据集包含了一系列测试模型推断抽象规则能力的视觉难题。他们注意到GPT-4和GPT-3.5的性能略有改进。但总体而言,GPT-4的性能仍然较低,为27.4%,而GPT-3.5为12.2%。然而,六月份的GPT-4在一些它在三月份正确回答的查询上出现了错误。研究人员写道:“这强调了对细粒度漂移监测的需求,特别是对于关键应用程序。”
你在应用程序中能对ChatGPT有多少信任
我们需要数据的透明度
尽管该论文的研究结果并不一定表明模型变得更差,但确实确认了它们的行为发生了变化。例如,在代码示例中,模型的回答可能是正确的,但可能含有一些使其无法直接执行的瑕疵,需要进行一些清理。
研究人员得出结论,GPT-3.5和GPT-4的行为漂移“凸显了在生产应用中不断评估和评估LLM行为的必要性”。
随着我们构建使用LLM作为组件的软件系统,我们需要开发新的开发实践和工作流程,以确保可靠性和责任。通过公共API使用LLM需要新的软件开发实践和工作流程,我们还需要发现和完善这些实践。
“对于将LLM服务作为其持续工作流程中组件的用户和公司,我们建议他们为其应用实施类似的监控分析,就像我们在这里所做的一样,”研究人员写道。
该研究结果还强调了对用于训练和微调LLM的数据和方法更多透明度的需求。如果缺乏这种透明度,构建稳定的应用程序将变得非常困难。
ChatGPT的行为漂移被误解
媒体对论文的内容过度简化
在一篇跟随该论文发表的文章中,普林斯顿大学的计算机科学家和教授Arvind Narayanan以及普林斯顿大学的计算机科学家Sayash Kapoor认为媒体对该论文结果的解释存在误解,将其误解为GPT-4的性能下降的确认。
“不幸的是,这是对论文发现的极度简化。而且,虽然这些发现很有趣,但其中一些方法是值得质疑的,”他们写道。
例如,Narayanan和Kapoor发现在评估中使用的500个数学问题都是“数字X是质数吗?”的形式,而数据集中的所有数字都是质数。GPT-4的三月版本几乎总是猜测该数字是质数,而六月版本几乎总是猜测该数字是合数。
“作者将这解释为巨大的性能下降,因为他们只测试了质数,”Narayanan和Kapoor写道。然而,当在500个合数上测试GPT-4时,性能下降就消失了。
这些计算机科学家认为LLMs在猜测结果的同时,假装在计算质数。“实际上,所有四个模型的表现都非常糟糕……它们都是基于它们在校准时的方式来猜测的。简单来说,在微调过程中,也许某个模型接触到更多涉及质数的数学问题,而另一个接触到更多涉及合数的问题,”他们写道。“简言之,论文中的所有内容都与模型随时间变化的行为一致,其中没有任何表明性能下降的迹象。”
一款AI生成头像工具,可以生成各种风格的头像,快来试试吧~
源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS魔泊云) 是中国领先的人工智能(AI) 平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 魔泊云在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的GPU算力优化和规模化AI模型开发运维 (ModelOps) 能力和服务。MoPaaS魔泊云 AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS魔泊云致力打造全方位开放的AI技术和应用生态。同时,MoPaaS魔泊云在浙江嘉兴设立安尚云信信息科技有限公司全资子公司,致力于推动当地的科技产业发展,并积极培养本地专业技术人才,创造更大的社会和经济效益。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。