本文作者:云也
自推出以来,ChatGPT 快速迭代,考过美国执医,当过论文一作,许多医生用它辅助写论文,更有大量的研究和训练,让它在医学考试、影像结果处理及疾病诊断辅助方面表现得越来越好。
人工智能在医疗领域的应用研究成果日益增多,每每取得新的突破,就有一个问题随之而来:ChatGPT 会取代医生吗?
想回答这个问题,最直接的方式,就是让医生和它 PK。
本月发表的一项最新研究中,中国研究团队就真这么做了,而且,还使用了「丁香医生」。
从「丁香医生」找来 73 个病例,与 ChatGPT-4 PK 看病
这是一项由暨南大学第一附属医院运动医学科郑小飞教授团队进行的研究。研究比较了 ChatGPT-4 和医生在骨科远程病情咨询中的回答质量,上月发表于顶尖互联网医学期刊 Journal of Medical Internet Research,题为“Quality and Dependability of ChatGPT and DingXiangYuan Forums for Remote Orthopedic Consultations: Comparative Analysis”。
那么这场 PK,是怎么进行的呢?
研究的第一步,自然是选择合适的医生对照。研究团队选择了中国最大的远程付费会诊平台之一丁香医生在线问诊平台的远程咨询中,筛选病例建立「会诊数据集」。他们共收集了累计 8 种疾病(相当于 800 例)的咨询记录。在初次和重新筛选后,截至 2023 年 5 月,最终纳入了 73 份。
研究流程
有了对照组,接下来便是解决如何让 ChatGPT 在咨询中发挥出它的实力。
ChatGPT 的工作方式,是在同一对话窗口内持续回答问题,此时,每个问题对于它而言并非独立的,也就是说,每回答一个问题,ChatGPT 面对下一个相关问题就会做出调整。听上去是顺理成章的好事,但事实上这种能力也引入了系统误差。
也就是说,这种相互关联的回答,让 ChatGPT-4 回答一系列问题时,不能在每个问题上保持独立性。
因此,研究者决定,每次输入患者的问题,都和 ChatGPT-4 创建一个「新聊天」。
同时,研究禁用了插件和历史记录。这样做是为了维护每个回答的客观性,避免由于历史数据引入的偏差。
PK 双方准备就绪,接下来就是需要公平的裁判——盲评估。研究者请来了三位经验丰富的骨科外科医生,在不知道回答来自医生还是 ChatGPT-4 的情况下,根据特定标准评估这些回答。
评估标准主要包含以下 7 个维度:
可能漏诊误诊,但更适合做患教
ChatGPT 与医生的大战,战况究竟如何呢?我们先选择其中一场观摩一下:
← 左右滑动对比 AI 与专业医生回答 →
统计评分发现,「总体满意度」、「外部信息」和「引导功能」得分则十分相近。ChatGPT 的「内部信息」评分和「疗效」评分呈现低于对照组的趋势,「逻辑推理」得分较高,但差异没有统计学意义。
同时,ChatGPT 的「医学知识普及教育」得分优于对照组(平均 4.49,SD 0.67 vs 平均 3.87,SD 1.01;P<.001),差异具有统计学意义。
ChatGPT 现在的表现,总体上得到了医生的积极评价。
与丁香园上的专业医疗咨询相比,ChatGPT-4 显示出与专业医疗保健提供者相匹配的专业知识,特别是在科学教育方面表现出色。它提供了远程健康咨询的替代方案,从医疗保健专业人员角度,它可以作为患者教育的辅助工具,而患者可以将其作为获取健康咨询的便利工具。
但是,在图像分析和诊断精确性方面的局限性,充分证明了 AI 尚不能完全替代人类医生。ChatGPT 展现了其在解析大型数据库以评估和解决查询中的强大能力,甚至能够提供文献建议,但它在图像分析方面存在困难,且成功率不是很高。
同时,因为没有像人类医生那样的临床经验,ChatGPT 也常见一些漏诊误诊。
ChatGPT 遗漏痛风可能的低分回答
例如,当患者只能描述关节肿痛的症状,而不能给出更多其他信息,ChatGPT 就不能联想到痛风的诊断。此时,医生的专业评估和监督就不可或缺。
ChatGPT 有取代医生的空间吗?
研究总结了 ChatGPT 在作为医疗辅助工具方面,尤其是在患者教育和初步咨询服务中的潜力。那么 ChatGPT 究竟是否有取代医生的实力,或是潜力?为此我们邀请到研究通讯作者,暨南大学附属第一医院院长郑小飞教授对话相关话题。
丁香园:为什么近两年人工智能再次成为了人们的热点话题?
郑小飞教授:近两年人工智能的发展在大语言模型开发上取得了重大进展,最大特点是,有大型公司所开发的模型作为基础,用户和开发人员的技术门槛降低,大家都可以参与个性化开发。同时,它们使用起来又非常简易便捷,各领域的从业人员都能主动探索应用的落地情景。
丁香园:现阶段,ChatGPT 在医疗中展现了怎样的优势,又遇到了哪些瓶颈?
郑小飞教授:ChatGPT 能够提供逻辑性强、内容丰富且相关性高的回答,这一点在医学知识普及教育方面尤为突出。然而,医学影像分析对于 AI 就是一个复杂的任务,需要高度专业化和定制化的训练数据。目前有关人工智能多模态图像分析技术,是研究人员重点研究方向。
丁香园:为什么选择从丁香医生找医生来和 ChatGPT PK?
郑小飞教授:我们主要考虑了实际应用场景和平台可靠程度的问题。
中国医疗资源地区不平衡,远程医疗咨询需求极大。结合以往的研究成果,ChatGPT 已积累了充足的医疗专业知识,于是我们尝试让它处理一些具体的问诊案例,测试实际应用水平。
丁香园作为中国远程医疗咨询领域的标杆企业,以其服务的质量和可靠性著称。在丁香医生可以查询到众多高质量的付费问诊案例,我们在保护患者隐私的基础上,从中获得了大量优质数据。
丁香园:您认为本研究最大的特点是什么?
郑小飞教授:最重要的就是直接。将 ChatGPT 与丁香医生的专业医疗回答进行直接比较,最能切中我们亟待回答的问题,即「AI 在医疗咨询领域内的实力及其面临的挑战」。这种对比分析不仅凸显了 AI 在实际医疗中的广泛应用潜力,更为进一步优化和精细化应用提供实证。
丁香园:您认为目前 ChatGPT 有取代医生的可能吗?
郑小飞教授:ChatGPT 目前肯定是不能完全替代医生的进行专业判断和临床决策的。
我们的研究体现了 AI 技术,特别是 ChatGPT,可以为医疗保健系统增加价值,但医生仍是不可替代的角色。通过自动化初步咨询和患者教育,AI 可以将医生从繁重的病历整理和患者教育工作中解脱出来,让他们能够专注于更复杂、更需要人类专业知识和灵活应对的任务。
然而,在临床使用 AI 时必须保持极度谨慎。政策的制定和工具标准化使用的步伐往往落后于技术开发,我们呼吁尽快制订规范,但也必须等待。只有在明确的政策指导下,优秀的工具才能充分发挥潜力,临床医生也能在使用中有效避免伦理风险,减少潜在的医疗纠纷。
为此,我们也在进行深入的调查研究,期待能与更多医生、医学生们交流使用这些工具的现状,推动 AI 临床应用发展。
策划:云也 | 监制:carollero;题图来源:自己做的
作为医生或医学生,您现在都怎么用 ChatGPT 的,这样的 AI 工具您又了解多少呢?
👇点击文末「阅读原文」参与调查,与研究团队交流吧!