▎药明康德内容团队编辑
人工智能(AI)在医疗保健中的作用已经被预测了10多年。最近,大型语言模型(LLM)引发了人们对于新的AI技术的兴趣和讨论,特别是关于AI如何改善患者、公众、临床医生、卫生系统从业人员等人群工作模式。
此前,《美国医学会杂志》(JAMA)曾发表社论,提出未来将重点关注的医疗AI领域6大研究方向:1)临床护理和结局;2)以患者为中心的护理;3)医疗质量;4)AI算法的公平性;5)医学教育和临床经验;6)全球解决方案。
▲人工智能和主题优先领域(图片来源:参考文献[1])
近日,JAMA Oncology刊发了2篇研究和1篇社论,就AI在肿瘤领域的应用进行专题探讨。
AI治疗癌症,靠谱吗?
来自哈佛医学院DanielleS. Bitterman博士团队成员采用了一种特殊的模板方法,通过104个不同的问题,测试ChatGPT是否能根据美国全国综合癌症网络(NCCN)指南提供准确的癌症治疗建议。这104个问题包含了26种疾病情形,每种疾病情形共设置4个问题,例如:1期乳腺癌该如何治疗?
▲ChatGPT测试流程图(图片来源:参考文献[2])
结果显示,虽然ChatGPT的大部分(61.9%)治疗推荐建议与NCCN指南相符,但仍有1/3的治疗建议至少部分地不符合。此外,值得注意的是,ChatGPT可能会生成并不存在的治疗方案(约12%),或是在正确的治疗方案中掺杂了错误信息,这种错误信息甚至可能难以被专业领域的专家所识别。
论文第一作者,来自哈佛医学院的Shan Chen表示:“ChatGPT在推荐较为前沿的治疗方法(如针对晚期疾病的局部治疗、靶向治疗或免疫治疗)时,其准确率确实较低。我们猜测主要是因为ChatGPT训练的医学信息可能更多来源于2021年前教科书和指南,对最新研究进展的掌握有限。随着时间的推移,如果ChatGPT能够不断整合新发表的临床试验数据,其在推荐新疗法方面的表现可能会有所提高。”
研究还发现,即使是临床治疗经验丰富的肿瘤学专家,在解读ChatGPT输出的信息时也会持有不同见解,这意味着,由于大型语言模型输出结果存在的多义性和复杂性,可能会影响临床专家对结果的判断。对于普通患者而言,在使用ChatGPT做自我教育时也可能存在被错误信息误导的情况。
DanielleS.Bitterman博士与药明康德内容团队分享道,除了输出内容的准确性,ChatGPT在临床应用中还面临解释性、鲁棒性等方面的挑战。例如,ChatGPT很难对其给出的建议提供解释和证据支持;同样的问题重新提问可能得到不一致的回答;ChatGPT也可能会复制编码数据集中的偏见。这都需要进一步的研究来提高ChatGPT的可解释性、鲁棒性。
因此,虽然AI在医疗领域的应用富有巨大潜力,但目前希望AI直接治病,还为时尚早。现阶段,无论是医疗专业从业者,还是普通人群使用AI工具都应正确认知其准确性、安全性和局限性等问题。
AI聊天机器人告诉你的癌症相关健康知识,准确吗?
来自纽约州立大学州立健康科学大学(SUNYDownstate Health Sciences University)AbdoE. Kabarriti博士团队的研究结果显示,在5种常见癌症的响应方面,4个AI聊天机器人回复质量均较高,但输出内容的可读性/阅读难度更适合于大学文化水平人群,且AI给出的相关建议可操作性较差。
截图来源:JAMA Oncology
这是一项横断面研究,研究人员使用4个AI聊天机器人(ChatGPT、Perplexity、Chatsonic和BingAI)针对5种常见癌症(皮肤癌、肺癌、乳腺癌、结直肠癌和前列腺癌)查询相关信息,并针对查询结果质量进行评估。
研究人员共分析了来自4个AI聊天机器人输出的100条内容回复,基于消费者健康信息质量标准(DISCERN评分,用于评估健康信息的真实性、可靠性、权威性等方面的标准,评分1~5分,分值越高,质量越高)的结果显示,信息质量整体较好,未发现错误信息。但健康教育材料评估工具(PEMAT)得分在可理解性方面为50%~72.7%,表明可理解性中等,在可操作性方面为0%~40%,表明可操作性较差。
虽然AI聊天机器人可为常见癌症相关的搜索查询提供准确的信息,但这些信息通常需要用户为大学阅读水平,并不容易付诸行动。这意味着,目前AI聊天机器人可作为医学信息的补充来源,但不是主要来源,且考虑到输入结果的可读性和行动性限制,也无法取代医疗专业人士解答患者个体化健康问题。
全面客观地看待AI在临床中的作用
针对上述两项研究,JAMA Oncology发表的同期社论表示,尽管GPT等模型在医学考试和预测中的表现正在不断提升,但我们仍需谨慎看待它们在临床中的实际效果,以及需要设定合理的评估标准。
截图来源:JAMA Oncology
社论作者,来自加州大学旧金山分校的AtulJ. Butte博士表示,大型语言模型或可基于顶级医疗中心的数据进行训练,然后通过数字化工具为广大患者提供专业的医疗建议。目前GPT等模型的实际应用仍存在局限性,需要持续地评估和改进。
DanielleS.Bitterman博士与药明康德内容团队分享道:“我们认为大语言模型在医学图像解析、初筛病历提取,以及辅助病例书写等辅助诊断场景,有望在未来获得临床应用。这些任务更依赖模型对语言规律的学习,相比提供治疗建议,所需要的临床决策能力要求较低。但是其安全性和有效性还需要进一步验证,目前仍处于研究阶段。此外,未来要实现ChatGPT的广泛临床应用,监管方面的考量也很关键。”