撰文丨王聪
编辑丨王多鱼
排版丨水成文
ChatGPT,是由人工智能研究实验室 OpenAI 于2022年11月30日发布的全新聊天机器人。这种基于互联网数据的大语言模型,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。2023年3月14日,OpenAI发布升级版的GPT-4,其回答准确性大幅提升,还具备更高水平的识图能力。
自推出以来,ChatGPT强大的能力备受关注,世界各地的研究人员都在深入研究如何将这种AI工具应用于医疗场景。
2023年6月21日,哈佛医学院麻省总医院的研究人员在《美国放射学会杂志》(JACR)发表了题为:Evaluating GPT as an Adjunct for Radiologic Decision Making: GPT-4 Versus GPT-3.5 in a Breast Imaging Pilot 的研究论文。
该研究已于2023年2月7日在预印本平台medRxiv发表,这是第一个测试ChatGPT临床决策能力的研究,也是第一个测试GPT-4版本的研究。
这项最新研究显示,ChatGPT可以准确的为两种重要的临床表现乳腺癌筛查和乳房疼痛确定合适的影像学检查。这提示了我们,AI大型语言模型能够帮助医生提供决策。
当初级保健医生被要求进行专业检查时,比如面对一个出现乳房疼痛的病人,他们可能不知道选择那种影像学检查最合适,这可能是磁共振、超声波、乳房X光检查,抑或是其他成像检查。放射科专业医生通常遵循美国放射学会的适当性标准来做出决策,这些有证据支持的指南对于专业医生来说是常识,但对于初级保健医生或者非放射科/影像科专业医生来说,就可能不太了解。从而导致患者进行了不必要的检查或错误的检查。
在这项研究中,研究团队要求GPT-3.5和GPT-4帮助决策在21个虚拟的患者场景中使用哪种影像学检测,这些场景包括需要进行乳腺癌筛查或使用适当标准报告乳房疼痛。
研究团队以一种开放式的方式询问ChatGPT并让其提供一个选项列表,他们测试了GPT-3.5和GPT-4两种版本,结果显示,GPT-4的效果优于GPT-3.5,特别是在提供可用的影像学检测选项时。例如,当被问及乳腺癌筛查并给出多项检测选项时,GPT-3.5平均正确率为88.9%,而GPT-4的正确率则高达98.4%。
研究团队表示,可以将人工智能(AI)整合到医疗决策程序中,当初级保健医生将患者数据输入电子健康记录时,程序可以提醒并帮助医生做出最佳决策。还可以根据不同的患者和治疗数据和知识数据库对ChatGPT进行微调,使其适合特定的患者群体。
此外,还可以用顶尖医疗中心在复杂疾病和罕见疾病患者中获得的经验和教训来训练新模型,将该模型提供给世界各地的医疗中心,为他们在复杂和罕见疾病的诊断重提供支持,尤其是那些可能很少接收这些疾病患者从而经验不足的医疗中心。
论文通讯作者 Marc D. Succi 博士表示,ChatGPT的能力令人印象深刻,它就像转诊医疗保健专业人员和放射科专家之间的桥梁,它可以作为一名训练有素的顾问,快速推荐正确的影像学检查。这可以减少转诊和咨询医生在做出这些循证决策时所花费的时间,从而优化工作流程,减少倦怠,减少患者的困惑和等待时间。
论文链接:
https://doi.org/10.1016/j.jacr.2023.05.003