JAMA子刊：ChatGPT看病，离我们还有多远？

作者：学术经纬发布时间：2023-09-12

ChatGPT 人工智能医疗大语言模型

JAMA子刊：ChatGPT看病，离我们还有多远？

▎药明康德内容团队编辑

人工智能（AI）在医疗保健中的作用已经被预测了10多年。最近，大型语言模型（LLM）引发了人们对于新的AI技术的兴趣和讨论，特别是关于AI如何改善患者、公众、临床医生、卫生系统从业人员等人群工作模式。

此前，《美国医学会杂志》（JAMA）曾发表社论，提出未来将重点关注的医疗AI领域6大研究方向：1）临床护理和结局；2）以患者为中心的护理；3）医疗质量；4）AI算法的公平性；5）医学教育和临床经验；6）全球解决方案。

▲人工智能和主题优先领域(图片来源：参考文献[1]）

近日，JAMA Oncology刊发了2篇研究和1篇社论，就AI在肿瘤领域的应用进行专题探讨。

AI治疗癌症，靠谱吗？

来自哈佛医学院DanielleS. Bitterman博士团队成员采用了一种特殊的模板方法，通过104个不同的问题，测试ChatGPT是否能根据美国全国综合癌症网络（NCCN）指南提供准确的癌症治疗建议。这104个问题包含了26种疾病情形，每种疾病情形共设置4个问题，例如：1期乳腺癌该如何治疗？

▲ChatGPT测试流程图（图片来源：参考文献[2]）

结果显示，虽然ChatGPT的大部分（61.9%）治疗推荐建议与NCCN指南相符，但仍有1/3的治疗建议至少部分地不符合。此外，值得注意的是，ChatGPT可能会生成并不存在的治疗方案（约12%），或是在正确的治疗方案中掺杂了错误信息，这种错误信息甚至可能难以被专业领域的专家所识别。

论文第一作者，来自哈佛医学院的Shan Chen表示：“ChatGPT在推荐较为前沿的治疗方法（如针对晚期疾病的局部治疗、靶向治疗或免疫治疗）时，其准确率确实较低。我们猜测主要是因为ChatGPT训练的医学信息可能更多来源于2021年前教科书和指南，对最新研究进展的掌握有限。随着时间的推移，如果ChatGPT能够不断整合新发表的临床试验数据，其在推荐新疗法方面的表现可能会有所提高。”

研究还发现，即使是临床治疗经验丰富的肿瘤学专家，在解读ChatGPT输出的信息时也会持有不同见解，这意味着，由于大型语言模型输出结果存在的多义性和复杂性，可能会影响临床专家对结果的判断。对于普通患者而言，在使用ChatGPT做自我教育时也可能存在被错误信息误导的情况。

DanielleS.Bitterman博士与药明康德内容团队分享道，除了输出内容的准确性，ChatGPT在临床应用中还面临解释性、鲁棒性等方面的挑战。例如，ChatGPT很难对其给出的建议提供解释和证据支持；同样的问题重新提问可能得到不一致的回答；ChatGPT也可能会复制编码数据集中的偏见。这都需要进一步的研究来提高ChatGPT的可解释性、鲁棒性。

因此，虽然AI在医疗领域的应用富有巨大潜力，但目前希望AI直接治病，还为时尚早。现阶段，无论是医疗专业从业者，还是普通人群使用AI工具都应正确认知其准确性、安全性和局限性等问题。

AI聊天机器人告诉你的癌症相关健康知识，准确吗？

来自纽约州立大学州立健康科学大学（SUNYDownstate Health Sciences University）AbdoE. Kabarriti博士团队的研究结果显示，在5种常见癌症的响应方面，4个AI聊天机器人回复质量均较高，但输出内容的可读性/阅读难度更适合于大学文化水平人群，且AI给出的相关建议可操作性较差。

截图来源：JAMA Oncology

这是一项横断面研究，研究人员使用4个AI聊天机器人（ChatGPT、Perplexity、Chatsonic和BingAI）针对5种常见癌症（皮肤癌、肺癌、乳腺癌、结直肠癌和前列腺癌）查询相关信息，并针对查询结果质量进行评估。

研究人员共分析了来自4个AI聊天机器人输出的100条内容回复，基于消费者健康信息质量标准（DISCERN评分，用于评估健康信息的真实性、可靠性、权威性等方面的标准，评分1~5分，分值越高，质量越高）的结果显示，信息质量整体较好，未发现错误信息。但健康教育材料评估工具（PEMAT）得分在可理解性方面为50%~72.7%，表明可理解性中等，在可操作性方面为0%~40%，表明可操作性较差。

虽然AI聊天机器人可为常见癌症相关的搜索查询提供准确的信息，但这些信息通常需要用户为大学阅读水平，并不容易付诸行动。这意味着，目前AI聊天机器人可作为医学信息的补充来源，但不是主要来源，且考虑到输入结果的可读性和行动性限制，也无法取代医疗专业人士解答患者个体化健康问题。

全面客观地看待AI在临床中的作用

针对上述两项研究，JAMA Oncology发表的同期社论表示，尽管GPT等模型在医学考试和预测中的表现正在不断提升，但我们仍需谨慎看待它们在临床中的实际效果，以及需要设定合理的评估标准。

截图来源：JAMA Oncology

社论作者，来自加州大学旧金山分校的AtulJ. Butte博士表示，大型语言模型或可基于顶级医疗中心的数据进行训练，然后通过数字化工具为广大患者提供专业的医疗建议。目前GPT等模型的实际应用仍存在局限性，需要持续地评估和改进。

DanielleS.Bitterman博士与药明康德内容团队分享道：“我们认为大语言模型在医学图像解析、初筛病历提取，以及辅助病例书写等辅助诊断场景，有望在未来获得临床应用。这些任务更依赖模型对语言规律的学习，相比提供治疗建议，所需要的临床决策能力要求较低。但是其安全性和有效性还需要进一步验证，目前仍处于研究阶段。此外，未来要实现ChatGPT的广泛临床应用，监管方面的考量也很关键。”

JAMA子刊：ChatGPT看病，离我们还有多远？

JAMA子刊：ChatGPT看病，离我们还有多远？

推荐体验

相关资讯

Sora离我们还有多远？

AGI离我们到底还有多远？

终端侧生成式AI离我们还有多远？

糊了| Vol.16ChatGPT离我们人类还有多远？

ChatGPT爆红 AI大规模商用离我们还有多远？

近期资讯

鸿蒙原生页面高性能解决方案上线OpenHarmony社区助力打造高性能原生应用

北京口腔医院主院区开诊

华为之后全球第二家！三星三折叠屏曝光

中国航天科技集团：四维高景二号 03、04 星完成双星编队构形建立

Ulike：从国内崛起至海外称雄的美肤传奇

轻松删除WPS文档中的分页符，提升编辑体验与排版整洁度

吊打QD-OLED，海信跨时代显示技术即将发布

2024年度全国青少年创·造实践活动展演暨第五届青少年文化科技论坛在故宫举办

中国货船“伊鹏3号”无辜脱身，瑞典为何仍不罢休？海底光缆损毁疑云重重

以新质生产力推动智媒体转型升级——杭州文广集团发布2025AI赋能媒体改革重大项目

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响