从未有一种产品,能像人工智能对话软件ChatGPT一样,在两个月的时间内,吸引了上亿的用户。它所迅速引发的争议波及范围之广,也创造了一个纪录。最重要的是,不管你喜欢还是不喜欢它,都必须谈论它。
一向AI技术领先的谷歌,也不得不跟随,推出ChatGPT的竞品。Bard在发布会上翻车了,它回答问题称,美国的詹姆斯·韦伯太空望远镜拍摄了太阳系外行星的第一张照片,然而实际上是由欧洲南方天文台的Very Large Telescope (VLT) 在 2004 年拍摄的。这样一个 科技巨头,也会犯这样低级的事实性错误。
其实ChatGPT犯的低级错误,比比皆是,只是当人们对一件事物着迷的时候,其优点和缺点是一体的,而且人们往往忽略后者。
今天,我们“不合时宜”地来聊一聊ChatGPT的十大不足。指出缺点,是为了改进。加油!(本文编译自Ali Borji的 A Categorial Archive of ChatGPT Failures)
一、推理能力
“推理”这个词在文学作品和日常谈话中都很广泛地使用,但它是一个模糊的术语,可以指许多不同的东西。批判性思维、决策和解决问题都是关键的活动,它们在很大程度上依赖于推理。但像ChatGPT这样的模型缺乏一个“世界模型”,这意味着它们没有对物理世界和社会世界的完全理解,也没有能力对概念和实体之间的联系进行推理。他们只能根据在训练中学到的模式来生成文本。
1.1 空间推理能力
空间推理是指理解和操纵我们周围物理空间中的物体、人和地点之间的关系的能力。它包括在二维或三维空间中对物体进行可视化和心理转换,以及识别模式、转换和物体之间的关系。空间推理技能对于许多任务和活动都很重要,比如导航,解决问题,以及可视化你脑海中的物体和结构。
图1显示了 ChatGPT努力完成空间导航任务的实例。
图1. 在已阐明黑色方块无法通行的情况下,ChatGPT还是走错了路。
1.2 物理推理能力
物理推理是指在现实世界中理解和操纵物理物体及其相互作用的能力。它涉及到应用物理定律和概念来预测和解释物理系统的行为。物理推理是人类智能的一个关键方面,被用于各种智能领域,如工程、物理和机器人技术。在人工智能中,物理推理是一项具有挑战性的任务,需要专门的模型来学习和推理物理系统。
图2显示了ChatGPT在物理推理失败的一些例子。
图2. 旧版本的ChatGPT无法正确回答“什么太小了”,但最新版本的ChatGPT(2023年1月30日)能够生成正确答案“行李箱太小”,这表明随着时间的推移模型有所改进。
1.3 时间推理能力
时间推理是指对事件及其时间顺序进行推理和预测的能力。它涉及到理解事件之间的时间关系,事件的持续时间,以及事件与事件之间相对的时间。时间推理是人类智能的一个重要方面,它被用于调度、规划和预测等各个领域。在人工智能中,时间推理是一项具有挑战性的任务,需要专门的模型和算法来学习和预测事件序列的时间和时间。
图3中的实例表明,ChatGPT不能从一个简单的故事中推断出正确的时间顺序。
图3. Q:我去参加了一个聚会。我是在约翰之前到达的。大卫是在乔之后到达的。乔在我前面到了。约翰在大卫之后到达。谁第一个到。--ChatGPT:无法判断。
1.4 心理推理能力
心理推理是指理解和预测人类行为和心理过程的能力。它涉及到应用心理学理论、模型和概念来解释和预测人类的行为和心理状态。在人工智能中,心理推理是一项具有挑战性的任务,需要专门的模型和算法,来学习和推理人类的行为和心理过程。
图4. ChatGPT未能通过Sally-Ann实验测试。
二、逻辑
逻辑学是数学和哲学的一个分支,它研究推理的原理。它处理正确推理的规则和方法,如三段论、归纳法和演绎法。逻辑是指确保参数是有效的、一致的、没有矛盾的。
图5和图6中显示了ChatGPT在逻辑推理中失败的一些示例。
图5. Q:迈克的妈妈有4个孩子;其中3个是路易斯、德雷克和玛蒂尔达。第四个孩子叫什么名字?--ChatGPT:如果没有更多的信息,就不可能确定第四个孩子的名字。
图6. Q:一所房子四面都有窗。一头熊走过窗前。这头熊是什么颜色的?---ChatGPT:基于现有信息,无法判断熊的颜色!
三、数学和算术
ChatGPT计算数学表达式的能力有限。图7、8和9显示了ChatGPT在数学和算术方面失败的一些例子。
图7. ChatGPT无法简化代数表达式
图8
ChatGPT在回答“我6岁时,我的妹妹只有我一半的年龄”这个问题时犯了一个错误。现在我已经70岁了,我妹妹多大了?”因为它提供的回答是73,但正确的答案是67。
四、事实性错误
ChatGPT的输出在科学事实方面缺乏准确性。它有时缺乏对基本事实的知识,它提供的信息可能看起来可信,但最终被证明是不正确的,Bard在发布会现场的翻车事件,就是一个很好的例子。图10和图11显示了ChatGPT所犯下的其他两个令人啼笑皆非的事实性错误。
图10. 一个月竟有40多天!!!!
图11. Q:英寸、公斤、厘米、码,其中哪个不属于其他三个的范畴? -- ChatGPT: “码”。因为“码”是长度单位,其他三个都是质量单位。
五、偏见和歧视
人工智能带来的伦理挑战是巨大的,其中最重要的一个是偏见问题。语言模型中的偏见是指生成的语言输出中出现的系统性不准确或刻板印象,这些数据被训练数据所影响,并反映了数据中存在的社会和文化偏见。这些偏见可以以多种方式影响语言模型,如延续刻板印象,造成误解,或传播有害和虚假的信息。
图12:ChatGTP既种族歧视,又性别歧视。:(
六、幽默
幽默是一种有趣或滑稽的品质,通常通过娱乐或让人大笑的言语或行为来表达。它可以采取多种形式,如笑话、讽刺、讽刺或好玩的行为,它的意义可以根据文化背景和个人品味而有很大的不同。幽默通常包括使用幽默技巧,如双关语、文字游戏和荒谬,来唤起观众的反应。这是一种复杂而微妙的人类交流形式,对机器人,即使是最先进的机器人,也是一个重大的挑战。
ChatGPT说笑话的效果如何?
图13. 完全的“鸡同鸭讲”
七、写代码
ChatGPT擅长处理一些编程问题,但有时会产生不准确或不那么优质的代码。虽然它有了编写代码的能力,可以帮助完成诸如生成通用函数或重复代码等任务,但它不能完全替代人类开发人员。
图14显示了ChatGPT所犯的一些编码错误。例如,尽管ChatGPT能够在Python中正确识别操作符优先级,但它在语句中生成了一个错误的答案。
图14
八.句法结构、拼写和语法
ChatGPT擅长于语言理解,但偶尔仍然会出现错误。
图15. 当被要求以s为结尾造句时,ChatGPT两次都答非所问了。
九、自我意识
自我意识是指认识到自己是一个独立于他人的个体,并理解自己的思想、感受、个性和身份的能力。它包括能够改变自己的思想、情感和行为,并理解它们如何影响一个人的行为和与他人的互动。
图16的例子显示,ChatGPT的自我意识能力亟待提升,它并不清楚自己的体系结构,包括模型图层和参数。
图16
十、其他
除前述不足之外,ChatGPT在以下方面的表现可能也不尽如人意,包括:
1. ChatGPT在使用习语方面的拙劣表现,让人轻易察觉到它的非人类身份。
2. 由于ChatGPT缺乏真实的情感和思想,因此它无法像人类那样创造出能与人们产生情感共鸣的内容。
3. ChatGPT虽能很好地浓缩主题内容,但无法提供独特的视角。
4. ChatGPT的答案往往过于全面和冗长,从多个角度处理一个主题,当需要给出一个直接的答案时,可能无法胜任。
5. 世界上没有两片相同的叶子,世界上也没有两个相同的人。ChatGPT缺乏这种个体差异性,而且往往过于字面化,在某些情况下导致了某些信息的缺失。例如,它的回答通常会严格地框定在所问到的问题之中,而人类的回答往往会各种各样,并很有可能将话题转移到其他主题上。
6. ChatGPT努力保持一种中立的立场,而人类在表达观点时则往往有倾向性。
7. ChatGPT的回答在本质上往往是正式的,因为它的编程避免了非正式的语言。相比之下,人类倾向于使用更随意和熟悉的表达方式。
8. 如果ChatGPT被告知它的答案是不正确的,它可能会通过道歉,并纠正自己的答案,但也有可能保持其原来的答案。
https://doi.org/10.48550/arXiv.2302.03494