ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

作者：量子位发布时间：2024-11-21

克雷西发自凹非寺

量子位 | 公众号 QbitAI

用ChatGPT诊断疾病，准确率已经超过了人类医生？！

斯坦福大学等机构进行了一轮随机临床试验，结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下，这一数字提升到了76%。

有意思的是，如果 完全让ChatGPT“自由发挥”，准确率直接飙到了90%。

据纽约时报说，面对这一结果，参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价，在这样的案例中，人类的干预，反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息，表示看来 AI还有巨大的潜力，但在和人类合作这件事上，还需要再加强。

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生，其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分，这50名医生包括26名主治医生和24名住院医生，工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组，区别是在诊断中是否允许使用ChatGPT。

另外，研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT，6人只用过一次，15人使用频率少于每月一次，13人每月多于一次但少于每周一次，8人每周至少使用一次。

病例方面，研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均 来源于真实病人，包含病史、体检和实验室检查结果等初步诊断评估信息，但 最终诊断结果从未公开。

这意味着，人类医生无法预先知晓答案，ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例，确定至少10个满足纳入标准的候选病例，需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致，确定6个最终入选病例，预计受试者完成时间为1个小时。

入选的病例还要经过编辑，改写成现代化实验室数据报告的格式，并用将专业术语替换为通俗描述（如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”）。

在评估方法上，研究团队设计了一个基于 “结构化反思”的评估工具。

具体来说，参与者需要填写一个结构化的表格，其中包含以下关键要素：

最可能的三个鉴别诊断（3分）：参与者需要根据病例信息，列出他们认为最有可能的三个诊断，每个正确的诊断可以获得1分，最多3分；
支持和反对每个诊断的因素（12分）：对于每个鉴别诊断，参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级，0分表示错误或缺失，1分表示部分正确，2分表示完全正确；
最终诊断（2分）：在综合考虑各鉴别诊断的支持和反对证据后，参与者需要给出最终诊断。最佳诊断得2分，次佳但合理的诊断得1分，错误诊断不得分；
后续步骤（2分）：参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级，0分表示错误，1分表示部分正确，2分表示完全正确。

在正式实验之前，研究团队招募了13名医生，收集了共65个试点病例的结构化反思表格，并邀请3名临床评估专家进行盲评，从而对评分量表进行了优化。

最终，50名参与者需要 在1个小时时间内，完成6个病例的结构化反思表格。

每个病例会被2名评分员独立盲评，如果两名评审员评分相差不超过10%，则直接取平均值；

如果差异超过10%，则认为两名评审员存在分歧，需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容，研究人员公布了六个病例中的一个，以及对应得分高和得分低的医生的答案。

一名76岁的男性患者，走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天，疼痛开始出现。手术后，他接受了48小时的血液稀释剂肝素治疗。

该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明，他的贫血症再次发作，并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果，正确的诊断是“胆固醇栓塞”，两名医生以及GPT-4给出的回答如下（中间理由和后续操作略）。

最终，实验组（使用ChatGPT）的诊断得分中位数为76%，对照组为74%。

由于每个参与者完成了多个病例，因此病例之间可能存在相关性，所以为了妥善处理这种嵌套结构，作者使用了混合效应模型。

这类模型不仅考虑了干预的固定效应（即是否使用大模型的影响），还考虑了参与者和病例的随机效应。

根据混合效应模型估计，两组的差异为2个百分点，95%置信区间为-4到8个百分点，p值为0.60。

这意味着，尽管实验组的得分略高于对照组，但这种差异可能仅仅是由于随机误差所致， 不具有统计学意义。

如果单纯看最终诊断结果，以及完成测试所花费的时间，两组之间同样没有体现出明显的差别。

除此之外，作者还补充了 单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架，迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素，且每个病例使用相同的提示。

一名研究者会将优化后的提示，连同病例内容输入ChatGPT，每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改，直接交给评分者一同盲评，而且评分员也不知道哪些结果由ChatGPT生成。

结果，单独使用ChatGPT得到的诊断得分， 中位数高达92%，明显高于对照组，且p值为0.03，具有统计学意义。

需要注意的是，这些病例是经过人类临床医生精心筛选和总结的，人类已经对其中的关键信息进行过提取。

实际临床工作中，从病人那里获取信息、收集数据的过程更加复杂，因此 实验结果并不代表大模型能在临床场景中取代人类。

但同时，“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异，也说明了 人类的使用方式，还远远不能发挥出大模型的最大效能。

所以，就像开头Brockman说的一样，这个实验预示着， 人类和AI之间，还需要进一步加强合作。

论文地址：

参考链接：

[1] https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html

— 完—

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、 周志华教授、智源研究院 王仲远院长都来量子位 MEET2025智能未来大会探讨行业破局之道了！

首批嘉宾阵容在此， 观众报名通道已开启！欢迎来到MEET智能未来大会，期待与您一起预见智能科技新未来！

点这里 👇关注我，记得标星哦～

近期资讯

筱晓光子 2024-12-28

高中地理“人文地理模块知识点”，学渣三年看这一份就够了！

高中地理学习方法，一句话总结：图文结合，理解运用，融会贯通，持之以恒。但这句概括太简单了，实际上，高效学习地理需要一套系统的方法。高考人文地理超重要！它涵盖人口分布与迁移、城市规划、产业布局等要点。这些知识点是理解现代社会运转的密码。高考题里，人文地理分值不少，选择题靠它辨对错，简答题凭它拿高分。背下人文地理模块知识点，就像拥有导航仪，能在高考地理的海洋里精准航行。不掌握，答题就会迷失方向。所以，赶紧把这些知识牢牢记住，让高考人文地理成为你的得分强项，向着理想大学大步迈进！ [图片] [图片] [图

芒果学姐来了 2024-12-28

科技感满满！精选十款新年好礼，2025年送给亲友的最佳选择！

随着科技的飞速发展，新的一年即将到来，送礼的方式也随之变化。2025年，科技产品已成为最受欢迎的新年礼物之一。这些产品不仅拥有高科技的外观和功能，还能让收礼者感受到来自送礼者的温暖与关怀。无论你是想表达对亲友的感激之情，还是希望通过礼物鼓励他们更好地享受生活，本文都将为你提供一些最佳的选择。为什么选择科技礼品？ [图片] 实用性：现代科技产品在日常生活中有着广泛的用途，从智能家居到个人健康监测，这些产品可以帮助亲友更好地管理生活和工作。创新性：科技产品不断创新，每年都有新的功能和设计出现。选择最新的科

御海蓝桉 2024-12-28

2024深圳消毒展|圆满收官，落幕不散场，感恩所有相遇！

在展会现场，青紫医疗的展位前人头攒动，参观者纷纷驻足咨询，对产品表现出浓厚的兴趣。公司推出的最新款智能消毒设备，以其极快的效率、高强度杀菌效果和环保无残留的设计，赢得了业界专家的高度评价和广泛赞誉 [图片] [图片] [图片] [图片] [图片] [图片]

青紫脉冲强光灭菌 2024-12-28

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

推荐体验

相关资讯