GPT-4“炉火纯青”的数据造假能力助研究论文登上学术期刊，Nature请专家调查

作者：搜狐科技发布时间：2023-11-23

GPT-4 ChatGPT

出品｜搜狐科技

作者｜郑松毅

大家现在或许已经对ChatGPT“睁着眼睛说瞎话”的行为见怪不怪了，但你可能想不到，如今GPT-4的造假能力已经修炼到了“炉火纯青”的境界，伪造的论文数据甚至骗过了国际学术期刊审核员的眼睛。

当地时间11月22日，Nature发文说明，一篇于11月9日发表在《JAMA Ophthalmology》（《JAMA 眼科学》）的论文中存在数据造假的现象，而造假的“幕后黑手”正是GPT-4。

据悉，《JAMA Ophthalmology》自1869年以来连续出版，至今已有百余年历史，是同行评审的国际眼科和视觉科学期刊。

Nature介绍，这次论文造假已不是抄袭这么简单，而是研究人员使用GPT-4的高级数据分析功能（ADA）生成了一个假数据集，准确支撑了错误的论文观点，形成了误导结果。

据报道，研究人员先是向GPT-4输入了一些列数据生成要求，然后提供了一系列的提示词，要求它创建一个关于圆锥角膜（keratoconus）眼部疾病患者的数据集。

目前治疗圆锥角膜疾病的方式主要有两种，一种是穿透性角膜移植（PK），另一种是深板层移植（DALK）。AI 随即生成的数据包括 160 名男性和 140 名女性参与者，并表明接受 “DALK” 治疗的人在视力和成像测试方面的得分都比接受 “PK” 治疗方法的人更好。但经验证发现，这一发现与真正的临床试验显示的结果不一致。

为了验证 GPT-4 做出来的数据是否真的令人信服，Nature 特意请来了英国曼彻斯特大学生物统计学家杰克・威尔金森（Jack Wilkinson）和同事Zewen Lu来检查数据可信度。

调查人员表示，数据集中许多“参与者”的性别与通常从名字中预期的性别不匹配（比如“Mary”是男性）。此外，术前和术后视力测量与眼部影像学测试之间没有发现相关性。”他们认为该数据集存在缺陷。

研究作者随后承认了该调查结果，并表示“如果只是快速地察看这个数据集，很难识别出他不是人做的。”

EMBO报告的主编Bernd Pulverer认为这是一个令人担忧的问题，因为现实中的评审人往往无法进行全面的数据分析，并且不太容易发现人工智能精心设计的违规行为。他补充说，“期刊将需要更新质量检查的方法，以识别人工智能生成的合成数据。”

威尔金森也强调，这是一个需要人们思考的问题，因为AI一旦知道自己是哪里“露馅”了，很快将会进步，并找出方法来规避这些问题，从而生成让人类更难以识别的结果。

人工智能的发展为科学研究带来了很多帮助，例如在数据分析及复杂运算方面，它都是一个很好的工具。但目前为止，很大一部分科学家还是对其可信性表示担忧。

邵逸夫生命科学与医学奖得奖者彼得·黑格曼（Peter Hegemann）曾对搜狐科技表示，“人工智能的确在一些研究工作上帮忙节省了很多时间，比如比对几百个基因，人工做下来要很久，它却可能在几秒内完成。但至少从生物学的角度看，人工智能构建的模型还不完整，生成的结果还不足以让人信赖。”