ChatGPT调用失败

作者：蓬域科技发布时间：2023-08-14

在今年早些时候，OpenAI推出了ChatGPT的第三方插件功能，突破了ChatGPT无法连接互联网的限制。许多人惊叹于ChatGPT的问世，将其比作"iPhone时刻"，而第三方插件的整合则类似于"iOS App Store时刻"。

根据初步统计，消息公布后仅几天，就有70多款插件上线了ChatGPT。几个月过去了，这些插件对ChatGPT的实际效果如何呢？这篇文章从纽约大学的Ernest Davis和德克萨斯大学奥斯汀分校的Scott Aaronson出发，对驱动ChatGPT背后大型模型GPT-4的插件进行了深入考察。

具体而言，该研究描述了在2023年6月至8月期间，使用了Wolfram Alpha（以下简称为GPT4+WA）和Code Interpreter（以下简称为GPT4+CI）插件，对105个高中和大学水平的科学和数学问题进行了测试。

他们得出了以下结论：

在各类问题的测试中，搭载任一插件的GPT-4明显优于单独的GPT-4。此外，研究还得出结论，GPT-4几乎可以肯定地比一年前的AI更强大。然而，其可靠性还有待提升；它经常给出错误答案或者无法回答问题。

总体来看，本文认为这些系统的表现相当于中等本科生水平。这些系统解决了一些即便对有能力的学生来说也有难度的问题，但却未能解决一些即便对中学生来说也相对容易的问题。

此外，该研究还发现，GPT-4与插件之间存在着很大的提升空间，特别是在使用Wolfram Alpha方面。GPT-4经常以难以接受或生成有用输出的方式向Wolfram Alpha提问。

举例来说，在问题B.35中（详见论文附录），GPT-4尝试了40次调用Wolfram Alpha，以获取某个事件的日期，但均未成功，而没有插件的GPT-4则知道该日期。在问题A.14中，要求GPT-4用天文学单位回答，Wolfram Alpha返回了以米为单位的正确答案，但随后系统无法将其转换为天文单位，尽管尝试了八次调用。

GPT-4有时还会进行对插件毫无意义的调用，例如在问题C.11中，GPT与WA进行了以下交互：

这些结果表明，GPT-4未能充分发挥插件的功能，尤其是在使用Wolfram Alpha方面。

总体而言，这些系统在那些能够通过调用单个公式解决的问题上表现最佳。它们通常在人们通常使用空间可视化来解决的问题上表现较差。此外，这些系统往往难以解决涉及多种不同计算类型的组合问题，也不擅长处理非常大或非常小的数字。GPT-4在判断插件返回答案的合理性或物理意义方面有一定能力，但并不十分可靠，也几乎没有能力识别错误的原因或进行修复。

该研究创建了三个测试集："任意数值"测试集、"无需计算"测试集和"有动机数值"测试集。

测试人员表示，这些测试集太小、结构太随意，无法支撑统计上有效的结论，但这项研究也揭示了一些结论，两个插件在功能上都非常强大，双方都能解决对方难以应对的问题。