ChatGPT 能让医生失业？他们直接请了 70 多个病人来 PK

作者：丁香园发布时间：2024-04-20

本文作者：云也

自推出以来，ChatGPT 快速迭代，考过美国执医，当过论文一作，许多医生用它辅助写论文，更有大量的研究和训练，让它在医学考试、影像结果处理及疾病诊断辅助方面表现得越来越好。

人工智能在医疗领域的应用研究成果日益增多，每每取得新的突破，就有一个问题随之而来：ChatGPT 会取代医生吗？

想回答这个问题，最直接的方式，就是让医生和它 PK。

本月发表的一项最新研究中，中国研究团队就真这么做了，而且，还使用了「丁香医生」。

从「丁香医生」找来 73 个病例，与 ChatGPT-4 PK 看病

这是一项由暨南大学第一附属医院运动医学科郑小飞教授团队进行的研究。研究比较了 ChatGPT-4 和医生在骨科远程病情咨询中的回答质量，上月发表于顶尖互联网医学期刊 Journal of Medical Internet Research，题为“Quality and Dependability of ChatGPT and DingXiangYuan Forums for Remote Orthopedic Consultations: Comparative Analysis”。

那么这场 PK，是怎么进行的呢？

研究的第一步，自然是选择合适的医生对照。研究团队选择了中国最大的远程付费会诊平台之一丁香医生在线问诊平台的远程咨询中，筛选病例建立「会诊数据集」。他们共收集了累计 8 种疾病（相当于 800 例）的咨询记录。在初次和重新筛选后，截至 2023 年 5 月，最终纳入了 73 份。

研究流程

有了对照组，接下来便是解决如何让 ChatGPT 在咨询中发挥出它的实力。

ChatGPT 的工作方式，是在同一对话窗口内持续回答问题，此时，每个问题对于它而言并非独立的，也就是说，每回答一个问题，ChatGPT 面对下一个相关问题就会做出调整。听上去是顺理成章的好事，但事实上这种能力也引入了系统误差。

也就是说，这种相互关联的回答，让 ChatGPT-4 回答一系列问题时，不能在每个问题上保持独立性。

因此，研究者决定，每次输入患者的问题，都和 ChatGPT-4 创建一个「新聊天」。

同时，研究禁用了插件和历史记录。这样做是为了维护每个回答的客观性，避免由于历史数据引入的偏差。

PK 双方准备就绪，接下来就是需要公平的裁判——盲评估。研究者请来了三位经验丰富的骨科外科医生，在不知道回答来自医生还是 ChatGPT-4 的情况下，根据特定标准评估这些回答。

评估标准主要包含以下 7 个维度：

逻辑推理
内部信息（使用问题中的信息）
外部信息（使用问题之外的信息）
导诊功能（为有需要的患者提供线下诊疗信息）
治疗效果
医学知识普及教育
总体满意度

可能漏诊误诊，但更适合做患教

ChatGPT 与医生的大战，战况究竟如何呢？我们先选择其中一场观摩一下：

← 左右滑动对比 AI 与专业医生回答 →

统计评分发现，「总体满意度」、「外部信息」和「引导功能」得分则十分相近。ChatGPT 的「内部信息」评分和「疗效」评分呈现低于对照组的趋势，「逻辑推理」得分较高，但差异没有统计学意义。

同时，ChatGPT 的「医学知识普及教育」得分优于对照组（平均 4.49，SD 0.67 vs 平均 3.87，SD 1.01；P<.001），差异具有统计学意义。

ChatGPT 现在的表现，总体上得到了医生的积极评价。

与丁香园上的专业医疗咨询相比，ChatGPT-4 显示出与专业医疗保健提供者相匹配的专业知识，特别是在科学教育方面表现出色。它提供了远程健康咨询的替代方案，从医疗保健专业人员角度，它可以作为患者教育的辅助工具，而患者可以将其作为获取健康咨询的便利工具。

但是，在图像分析和诊断精确性方面的局限性，充分证明了 AI 尚不能完全替代人类医生。ChatGPT 展现了其在解析大型数据库以评估和解决查询中的强大能力，甚至能够提供文献建议，但它在图像分析方面存在困难，且成功率不是很高。

同时，因为没有像人类医生那样的临床经验，ChatGPT 也常见一些漏诊误诊。

ChatGPT 遗漏痛风可能的低分回答

例如，当患者只能描述关节肿痛的症状，而不能给出更多其他信息，ChatGPT 就不能联想到痛风的诊断。此时，医生的专业评估和监督就不可或缺。

ChatGPT 有取代医生的空间吗？

研究总结了 ChatGPT 在作为医疗辅助工具方面，尤其是在患者教育和初步咨询服务中的潜力。那么 ChatGPT 究竟是否有取代医生的实力，或是潜力？为此我们邀请到研究通讯作者，暨南大学附属第一医院院长郑小飞教授对话相关话题。

丁香园：为什么近两年人工智能再次成为了人们的热点话题？

郑小飞教授：近两年人工智能的发展在大语言模型开发上取得了重大进展，最大特点是，有大型公司所开发的模型作为基础，用户和开发人员的技术门槛降低，大家都可以参与个性化开发。同时，它们使用起来又非常简易便捷，各领域的从业人员都能主动探索应用的落地情景。

丁香园：现阶段，ChatGPT 在医疗中展现了怎样的优势，又遇到了哪些瓶颈？

郑小飞教授：ChatGPT 能够提供逻辑性强、内容丰富且相关性高的回答，这一点在医学知识普及教育方面尤为突出。然而，医学影像分析对于 AI 就是一个复杂的任务，需要高度专业化和定制化的训练数据。目前有关人工智能多模态图像分析技术，是研究人员重点研究方向。

丁香园：为什么选择从丁香医生找医生来和 ChatGPT PK？

郑小飞教授：我们主要考虑了实际应用场景和平台可靠程度的问题。

中国医疗资源地区不平衡，远程医疗咨询需求极大。结合以往的研究成果，ChatGPT 已积累了充足的医疗专业知识，于是我们尝试让它处理一些具体的问诊案例，测试实际应用水平。

丁香园作为中国远程医疗咨询领域的标杆企业，以其服务的质量和可靠性著称。在丁香医生可以查询到众多高质量的付费问诊案例，我们在保护患者隐私的基础上，从中获得了大量优质数据。

丁香园：您认为本研究最大的特点是什么？

郑小飞教授：最重要的就是直接。将 ChatGPT 与丁香医生的专业医疗回答进行直接比较，最能切中我们亟待回答的问题，即「AI 在医疗咨询领域内的实力及其面临的挑战」。这种对比分析不仅凸显了 AI 在实际医疗中的广泛应用潜力，更为进一步优化和精细化应用提供实证。

丁香园：您认为目前 ChatGPT 有取代医生的可能吗？

郑小飞教授：ChatGPT 目前肯定是不能完全替代医生的进行专业判断和临床决策的。

我们的研究体现了 AI 技术，特别是 ChatGPT，可以为医疗保健系统增加价值，但医生仍是不可替代的角色。通过自动化初步咨询和患者教育，AI 可以将医生从繁重的病历整理和患者教育工作中解脱出来，让他们能够专注于更复杂、更需要人类专业知识和灵活应对的任务。

然而，在临床使用 AI 时必须保持极度谨慎。政策的制定和工具标准化使用的步伐往往落后于技术开发，我们呼吁尽快制订规范，但也必须等待。只有在明确的政策指导下，优秀的工具才能充分发挥潜力，临床医生也能在使用中有效避免伦理风险，减少潜在的医疗纠纷。

为此，我们也在进行深入的调查研究，期待能与更多医生、医学生们交流使用这些工具的现状，推动 AI 临床应用发展。

策划：云也 | 监制：carollero；题图来源：自己做的

作为医生或医学生，您现在都怎么用 ChatGPT 的，这样的 AI 工具您又了解多少呢？

👇点击文末「阅读原文」参与调查，与研究团队交流吧！

ChatGPT 能让医生失业？他们直接请了 70 多个病人来 PK

推荐体验

相关资讯

ChatGPT 能让医生失业吗？我们直接请了 6 名医生和它 PK 看病

ChatGPT 能让医生失业？主任微微一笑：若碰到这些情况，阁下如何应对

ChatGPT可能让哪类人失业？

ChatGPT爆火！AI或替代医生？医生是否会失业？

ChatGPT真的能让打工人失业吗

近期资讯

下一代 FOPLP 封装材料之争：三星坚守塑料、台积电押注玻璃

曝小米15 Ultra升级显著：骁龙8 Plus加持 6100mAh大容量电池

小米官宣与理想汽车达成充电合作 6000+理想充电桩入驻小米充电地图

如何安全进入iPhone DFU模式并解决系统问题的完整指南

苏州三川换热器取得一种变角翅片切割机专利，使翅片的变角度切割更加精确

英伟达推出 GB200 NVL4 平台：144 核 CPU+4 GPU

荣耀Magic7，不仅是性能怪兽，还是年度性价比之王！

旭丰智慧能源申请基于大数据分析的电解水制氢优化方法及系统专利，确保电解过程稳定性避免因气泡堆积导致的性能下降问题

如何合理去除水印？保护版权与尊重创作者的必要性探讨

如何在酷狗音乐上轻松开始你的K歌之旅，享受唱歌乐趣

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响