当前位置:首页|资讯|ChatGPT|OpenAI

ChatGPT调用失败

作者:蓬域科技发布时间:2023-08-14

原标题:ChatGPT调用失败

在今年早些时候,OpenAI推出了ChatGPT的第三方插件功能,突破了ChatGPT无法连接互联网的限制。许多人惊叹于ChatGPT的问世,将其比作"iPhone时刻",而第三方插件的整合则类似于"iOS App Store时刻"。

根据初步统计,消息公布后仅几天,就有70多款插件上线了ChatGPT。几个月过去了,这些插件对ChatGPT的实际效果如何呢?这篇文章从纽约大学的Ernest Davis和德克萨斯大学奥斯汀分校的Scott Aaronson出发,对驱动ChatGPT背后大型模型GPT-4的插件进行了深入考察。

具体而言,该研究描述了在2023年6月至8月期间,使用了Wolfram Alpha(以下简称为GPT4+WA)和Code Interpreter(以下简称为GPT4+CI)插件,对105个高中和大学水平的科学和数学问题进行了测试。

他们得出了以下结论:

在各类问题的测试中,搭载任一插件的GPT-4明显优于单独的GPT-4。此外,研究还得出结论,GPT-4几乎可以肯定地比一年前的AI更强大。然而,其可靠性还有待提升;它经常给出错误答案或者无法回答问题。

总体来看,本文认为这些系统的表现相当于中等本科生水平。这些系统解决了一些即便对有能力的学生来说也有难度的问题,但却未能解决一些即便对中学生来说也相对容易的问题。

此外,该研究还发现,GPT-4与插件之间存在着很大的提升空间,特别是在使用Wolfram Alpha方面。GPT-4经常以难以接受或生成有用输出的方式向Wolfram Alpha提问。

举例来说,在问题B.35中(详见论文附录),GPT-4尝试了40次调用Wolfram Alpha,以获取某个事件的日期,但均未成功,而没有插件的GPT-4则知道该日期。在问题A.14中,要求GPT-4用天文学单位回答,Wolfram Alpha返回了以米为单位的正确答案,但随后系统无法将其转换为天文单位,尽管尝试了八次调用。

GPT-4有时还会进行对插件毫无意义的调用,例如在问题C.11中,GPT与WA进行了以下交互:

这些结果表明,GPT-4未能充分发挥插件的功能,尤其是在使用Wolfram Alpha方面。

总体而言,这些系统在那些能够通过调用单个公式解决的问题上表现最佳。它们通常在人们通常使用空间可视化来解决的问题上表现较差。此外,这些系统往往难以解决涉及多种不同计算类型的组合问题,也不擅长处理非常大或非常小的数字。GPT-4在判断插件返回答案的合理性或物理意义方面有一定能力,但并不十分可靠,也几乎没有能力识别错误的原因或进行修复。

该研究创建了三个测试集:"任意数值"测试集、"无需计算"测试集和"有动机数值"测试集。

测试人员表示,这些测试集太小、结构太随意,无法支撑统计上有效的结论,但这项研究也揭示了一些结论,两个插件在功能上都非常强大,双方都能解决对方难以应对的问题。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1