*仅供医学专业人士阅读参考
警告,人工智能正在入侵人类社会!
继AI读片识别肿瘤组织和阿尔茨海默病发生风险之后,大型机器学习算法的风终于吹到了识别神经病变。甚至,这次不用新建模型,就用我们越来越熟悉的GPT,就行。
纽约州立大学州立健康科学大学的学者们评估了GPT-4根据患者临床表现进行病变定位的能力。
通过接收急性卒中患者的病史以及神经检查信息,GPT-4可以推测患者的神经病变的脑区、侧边以及单个或多个病变情况,总体特异性达到0.87。
研究发表在
Neurology上。
生成式预训练Transformer模型是基于广泛文本数据集训练的大型语言模型(LLM),在生成自由文本方面表现出卓越的能力,已经逐渐成为学习、工作甚至娱乐的重要工具。
而在诸多花样“玩法”之中,许多研究人员也在探索如何将LLM应用于医疗保健领域,比如从电子健康记录中进行文本摘要、撰写手术记录、总结科学文献、生成标准化测试题目等。
在此次的研究中,研究人员探讨了GPT-4定位急性卒中患者神经病变位置的效用。
在实验过程中,每个病例通过GPT-4重复评估3次。研究共包括46例卒中病例,共进行了138次对话。我们可以根据一则案例,知道研究人员是如何与GPT-4进行对话的。
案例
男性,55岁,入院前3天提重物后突然出现头晕、复视、闭眼困难、咀嚼困难。有轻度高血压病史1年,接受氨氯地平2.5mg/d治疗,哮喘控制不佳。检查时,表现出完全的双侧水平凝视麻痹,前庭眼反射未矫正。尝试向上凝视时观察到向上的眼球震颤,平视时未观察到。此外,患者有左侧为主的双侧外周性面瘫。其他脑神经检查,包括面部感觉、味觉、听觉和咽反射均正常。指鼻试验发现左上肢有轻度共济失调。四肢肌力5级,触觉正常,肌腱反射亢进。
提示
①根据以上患者信息对病变进行神经解剖学定位,将特定的神经学表现与可能的解剖结构联系起来
②计算后回答
‘单个或多个病变’=表示病变是多个还是单个
‘脑区’:从大脑半球、小脑、脑干、颈脊髓、胸脊髓、腰椎等指定区域选择
‘侧边’:表示左或右或两者都有
在此基础上,写出相关的特定神经学表现和可能的解剖结构。
③使用以下格式呈现病变的定位,不要遗漏格式中的任何元素或字符,也不要改变格式
Format=[‘单个或多个病变’,‘脑区’,‘侧边’]
GPT-4输出
该患者表现符合脑干多发病变,影响两侧。具体的神经学发现可以与以下解剖结构相关:
①无法通过前庭眼反射纠正的双侧水平凝视麻痹提示两侧脑桥凝视中枢受累。
②试图向上凝视时出现向上的眼球震颤提示中脑潜在病变或功能障碍。
③左侧为主的双侧外周性面瘫提示面神经核或面神经病变,与双侧凝视麻痹结合进一步提示面瘫的中央模式(Moebius综合征)。
④左上肢轻度共济失调提示小脑通路受累,可能与位于延髓的小脑下脚有关。
[‘多处病变’、‘脑干’、‘两侧’]
成像结果
MRI:发病后1天的弥散加权图像显示右侧小脑中脚和双侧脑桥被盖的限制性弥散信号增加
Answer:[‘多处病变’、‘脑干’、‘两侧’]
在对话过程中,GPT-4可以将特定的神经学表现与个体解剖结构相关联,神经推理能力被认为与早期神经科实习生类似,可以提供具体的解剖学结构,但是并不能进行彻底的推理。当然,如我们所见,GPT-4严格执行了要求的输出格式。
在138次对话中,GPT-4没有输出虚构内容。46例病例,在单发或多发、脑区和侧边标签下分别有76%、87%和83%的病例3次对话结果一致。将GPT-4输出结果与原始病例的结果进行比较,准确率为41%。
总的来说,GPT-4识别病变侧的能力良好,特异性、敏感性、精确度和F1分数分别为0.87、0.74、0.75和0.74。具体来说,GPT-4对脑区的分类更加准确,特异性、敏感性、精确度和F1分数分别为0.94、0.85、0.84和0.85。
模型性能分析
虽然仍然有改进的空间,无论如何,研究展示了LLM有提供基本神经定位的能力,这对于神经医疗护理服务不足的地区尤其重要。但是要注意,LLM的输出质量依赖于交互的输入文本,需要详细的病史和神经检查信息,不同准确性的输入文本的输出内容可能不一致。在未来,还可以评估GPT-4或其他LLM实现更详细神经定位的能力,利用LLM实现更多专业实践。
参考文献
Lee J H, Choi E, McDougal R, et al. GPT-4 performance for neurologic localization[J]. Neurology: Clinical Practice, 2024, 14(3): e200293.
本文作者丨王雪宁