参考消息网3月5日报道据美国《科学日报》网站3月1日报道,在最近的一项研究中,151名人类参与者在用来衡量发散性思维的三项测试中与聊天生成预训练转换器(ChatGPT)的语言模型GPT-4进行了对决。发散性思维被认为是创造性思维的指标。
发散性思维的特点是能够对一个没有预期解决方案的问题提出独特的解决方案,比如“避免和父母谈论争议话题的最好方法是什么?”在这项研究中,GPT-4提供的答案比人类参与者更具独创性和复杂性。
这份题为《目前人工智能生成语言模型在发散性思维任务上比人类更具创造性》的研究报告刊登在英国《科学报告》杂志上,作者是美国阿肯色大学心理学博士生肯特·休伯特和金·阿瓦,以及该校创造性认知机制与注意力实验室主任、心理学助理教授达里娅·扎别利纳。
他们所用的三项测试是:“选择使用任务”,即要求参与者为绳子或叉子等日常物品提出有创意的用途;“结果任务”,即邀请参与者想象假想情况的可能结果,比如“如果人类不再需要睡眠会怎样”;“发散关联任务”,即要求参与者生成10个在语义上尽可能疏远的名词,例如,“狗”和“猫”之间的语义距离不大,而“猫”和“本体论”等词之间的语义距离很大。
回答的评估标准包括回答的数量、回答的长度和单词之间的语义差异。
最终,作者们发现,“总体而言,即使在控制回答的流畅性的情况下,GPT-4在每项发散思维任务上都比人类更具独创性和复杂性。换句话说,GPT-4在整个发散思维任务中表现出了更高的创造潜力。”
这一发现确实伴随着一些警告。论文作者称,“需要注意的是,这项研究使用的衡量标准都是针对创造潜力的标准,但参与创造性活动或取得成就是衡量一个人创造力的另一个方面。”这项研究的目的是研究人类层面的创造潜力,而非那些具有创造资质的人。
休伯特和阿瓦进一步指出,“与人类不同,人工智能没有独立选择的能力”,它“依赖人类使用者的帮助。因此,除非得到激发,否则人工智能的创造潜力将一直处于停滞状态”。
此外,研究人员也没有评估GPT-4回答的恰当性。
因此,虽然人工智能可能提供了更多的回答和更具独创性的回答,但人类参与者可能觉得,由于他们需要以现实世界为基础,他们的回答受到了限制。
阿瓦还承认,人类给出繁复的回答的动机可能并不大。他说,还存在其他一些问题,比如“你如何运用创造力?我们真的能声称,对人类使用的这些测试可以适用于不同的人吗?它是在评估范围广泛的一系列创造性思维吗?因此,我认为,我们应批判性地审视最流行的发散性思维的衡量标准”。
这些测试是否完美地衡量了人类的创造潜力,这并不是真正的重点。重点在于,大型语言模型正在以前所未有的方式迅速进步并超越人类。它们是否可能会取代人类的创造力,尚有待观察。但眼下,作者们仍认为,“展望未来,人工智能很有可能在未来成为灵感的工具,在一个人的创造过程中发挥辅助作用或帮助打破固化思维”。(编译/王海昉)
今年1月在拉斯维加斯消费电子展展出的使用ChatGPT支持的人工智能伴侣(法新社)