出品|搜狐科技
作者|郑松毅
大家现在或许已经对ChatGPT“睁着眼睛说瞎话”的行为见怪不怪了,但你可能想不到,如今GPT-4的造假能力已经修炼到了“炉火纯青”的境界,伪造的论文数据甚至骗过了国际学术期刊审核员的眼睛。
当地时间11月22日,Nature发文说明,一篇于11月9日发表在《JAMA Ophthalmology》(《JAMA 眼科学》)的论文中存在数据造假的现象,而造假的“幕后黑手”正是GPT-4。
据悉,《JAMA Ophthalmology》自1869年以来连续出版,至今已有百余年历史,是同行评审的国际眼科和视觉科学期刊。
Nature介绍,这次论文造假已不是抄袭这么简单,而是研究人员使用GPT-4的高级数据分析功能(ADA)生成了一个假数据集,准确支撑了错误的论文观点,形成了误导结果。
据报道,研究人员先是向GPT-4输入了一些列数据生成要求,然后提供了一系列的提示词,要求它创建一个关于圆锥角膜(keratoconus)眼部疾病患者的数据集。
目前治疗圆锥角膜疾病的方式主要有两种,一种是穿透性角膜移植(PK),另一种是深板层移植(DALK)。AI 随即生成的数据包括 160 名男性和 140 名女性参与者,并表明接受 “DALK” 治疗的人在视力和成像测试方面的得分都比接受 “PK” 治疗方法的人更好。但经验证发现,这一发现与真正的临床试验显示的结果不一致。
为了验证 GPT-4 做出来的数据是否真的令人信服,Nature 特意请来了英国曼彻斯特大学生物统计学家杰克・威尔金森(Jack Wilkinson)和同事Zewen Lu来检查数据可信度。
调查人员表示,数据集中许多“参与者”的性别与通常从名字中预期的性别不匹配(比如“Mary”是男性)。此外,术前和术后视力测量与眼部影像学测试之间没有发现相关性。”他们认为该数据集存在缺陷。
研究作者随后承认了该调查结果,并表示“如果只是快速地察看这个数据集,很难识别出他不是人做的。”
EMBO报告的主编Bernd Pulverer认为这是一个令人担忧的问题,因为现实中的评审人往往无法进行全面的数据分析,并且不太容易发现人工智能精心设计的违规行为。他补充说,“期刊将需要更新质量检查的方法,以识别人工智能生成的合成数据。”
威尔金森也强调,这是一个需要人们思考的问题,因为AI一旦知道自己是哪里“露馅”了,很快将会进步,并找出方法来规避这些问题,从而生成让人类更难以识别的结果。
人工智能的发展为科学研究带来了很多帮助,例如在数据分析及复杂运算方面,它都是一个很好的工具。但目前为止,很大一部分科学家还是对其可信性表示担忧。
邵逸夫生命科学与医学奖得奖者彼得·黑格曼(Peter Hegemann)曾对搜狐科技表示,“人工智能的确在一些研究工作上帮忙节省了很多时间,比如比对几百个基因,人工做下来要很久,它却可能在几秒内完成。但至少从生物学的角度看,人工智能构建的模型还不完整,生成的结果还不足以让人信赖。”