近期发表在《神经外科杂志》上的一项分析评估了ChatGPT (OpenAI) 在替代神经外科板式问题上的表现,发现自然语言处理 (NLP) 算法能够显著优于医学生,并且仅略低于目前正在学习自我评估神经外科(SANS) 委员会考试的住院医生的表现。鉴于神经外科中的机器学习已迅速成为人们非常感兴趣的话题,作者William Mack(美国洛杉矶南加州大学)及其同事着手评估人工智能(AI)模型在神经外科考试中的表现。
ChatGPT VS神经外科医生/医学生
研究方法:
神经外科医师协会 (CNS) SANS问题集是住院医生准备书面考试的主要方式之一,研究者从中选择了643个问题,以评估ChatGPT的能力。因ChatGPT是一个NLP(自然语言处理)模型,允许对同样的输入自动生成不限数量的答案,因此每个问题会尝试提问三次,以提高获取正确答案的概率。
值得注意的是, 研究版本的ChatGPT不接受图像形式的输入,因此研究者需要输入问题题干,而问题涉及的图、表则无法提供给ChatGPT。
研究者统计了以下几个结果:
原始(第一次提问)的总分;
经过三次提问的总分;
去掉包含图表的问题之后的原始总分和三次提问总分。
为了进行分析,这643个问题分别由两名住院医师和四名对神经外科感兴趣的医学生全部作答,以建立合理的基准参数。
这些问题分成了若干大类,每个分类的平均表现是从SANS网站收集的,该网站统计了首次答题用户的平均正确率。
研究结果:
643个问题中包含了166个涉及图表的问题,ChatGPT拒绝了其中25个问题(3.9%)。
在第一次提问中,ChatGPT正确回答了329个问题(53.2%)。排除包含图像或图表的166个问题后,ChatGPT的正确率略微提升至54.9%。
在三次提问中,ChatGPT的正确率进一步提高到58.7%,在此基础上排除带有图像或图表的问题后,ChatGPT正确回答了 60.2%的问题。
尽管ChatGPT的表现优于四名医学生(26.3%),并且与用作比较的两名活跃的住院医生(61.5%)相近,但该研究版本的ChatGPT仍低于SANS题库用户的平均水平(69.3%)。
不过,AI模型 在“功能”、“儿科”和“疼痛/外周神经”类别中的正确率优于住院医生,并接近SANS用户的平均水平(在最后一个分类“疼痛/外周神经”中甚至超过了平均水平)。研究者认为这可能反映了正在进行神经外科学习的医生在这些类别中的知识储备相对较差。
研究还指出,与其他类别相比,ChatGPT 在“脊柱”类别上的表现差得多,虽然这种关系还没有得到很好的解释,但这一结果可能与脊柱领域的大量公开信息有关,导致ChatGPT的训练集充斥了更多错误的信息,也可能因为脊柱相关的问题需要更多参照问题涉及的图表才能正确作答。
ChatGPT目前在神经外科的应用
尽管目前存在局限性,但医生应该了解像ChatGPT这样的技术,因为它们确实显示出增强临床实践的巨大潜力——尤其是在三个关键领域。
首先是外科教育。
患者的风险识别、手术计划、手术过程的解释、患者分类和研究是ChatGPT可能支持的神经外科的所有方面。ChatGPT可用于神经外科培训,以帮助制定稳健的、循序渐进的手术计划;解释复杂的神经病理学疾病;或告知术前或术后手术计划。虽然现在考虑将ChatGPT带到手术室可能为时过早,但ChatGPT的进一步发展可能对神经外科培训和增强教育模式非常有用。
患者参与也很重要。
从患者的角度来看,ChatGPT可用于通过快速回答挥之不去或最后一刻的问题,以及为即将到来的约会提供提醒、提供术前和术后指导以及监测患者症状来帮助患者与他们的医疗团队互动。ChatGPT的对话性质可以帮助告知患者他们的状况,同时也为有效的远程医疗咨询创造机会。
三是神经外科研究。
在研究领域,ChatGPT可以通过分析大量神经外科数据并提取相关信息来协助创建文献综述。ChatGPT可以在数据中找到模式和相关性,从而对神经外科趋势有新的理解。
例如,使用AI系统可以快速确定选定患者的人口统计数据与脊柱手术后 30 天并发症之间的相关性。ChatGPT还可用于通过筛选患者的资格标准来招募临床试验,同时还可以快速回答有关临床试验规则和条例的问题。
未来的计划:
ChatGPT 、需要通过医生笔记、图像和手术记录进行数年的培训,然后才能可靠地用于临床环境。未来可能会看到ChatGPT改善外科医生和手术室工作人员之间的沟通,提供术中患者监控,或快速检测成像结果。
目前的努力已经在尝试将ChatGPT整合到电子健康记录中,创建一个工作流程,让医生可以花更多的时间与病人在一起。ChatGPT已经展示了大量的临床应用,神经外科医生应该努力适当地利用人工智能的好处。
凭借更高的精度和效率,我们可以期待ChatGPT在神经外科及其他领域发挥更大的作用,以供未来几代人使用。
ChatGPT在健康问答中某些方面比医生更出色?
最新发表在JAMA Internal Medicine上一项比较ChatGPT与执业医生在有关健康问题回答的研究结果表述为“ChatGPT在健康问答中某些方面比医生更出色”。
那么,将来经过充分医学训练的、专业的“人工智能医生”,与人类医生相比会是一种什么样的景象呢?我们可以大胆,但合理地预期,全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个脚指甲。
美国加州大学圣地亚哥分校的研究人员从大型在线社交媒体问答网站Reddit有关医学问答的“AskDocs”子论坛上随机抽取了2022年10月期间195个由执业医生做出回答的医学问题,在2022年12月22日和23日提交给ChatGPT生成回答。
然后,由3名在儿科、老年医学、内科、肿瘤学、传染病和预防医学领域持有执业证的专家团队对最初的问题、医生的回答和ChatGPT的回答进行了审查、评分。
审查是专家成员在不知道哪些回答是由医生,哪些回答是由ChatGPT提供的情况下的盲评。
评估者被要求在做出评估之前阅读完整的提问和两个回答。然后,被要求给出“哪个回答更好”的答案;再然后评估者使用一个叫做李克特量表的专业工具对两个回答在“提供的信息质量(分为非常差、差、可接受、好或非常好)”和“提供的移情或对病人关心体贴度(分为不移情、轻微移情、中度移情、移情和非常移情)”评估。最后,评估结果被评定为1至5级,评分越高代表更高的回答质量或同理心。
研究结果:
01-ChatGPT的回答篇幅更长;
患者的问题平均文字长度为180个字节;医生回答的平均文字长度仅有52个字节,显著短于ChatGPT的211个字节。
02-ChatGPT的回答质量显著优于医生;
在专家团给出的585次评估中,78.6%的评估更喜欢ChatGPT的回答的回答。
评估者认为ChatGPT的回答质量明显高于医生,ChatGPT的回答总体上优于“好”,平均评分高达4.13;而医生的回答被整体评估为略优于“可接受”,平均评分为3.26;两相比较,医生的回答整体得分比ChatGPT低了21%。
医生的回答中有高达27.2%被评估为低于可接受的质量(得分
ChatGPT的回答质量被评为好或非常好的比例高达高于78.5%,对应的医生这一比例仅有22.1;这相当于ChatGPT对医生形成了3.6倍的优势。
03-ChatGPT的回答更有同理心;
ChatGPT的回答还认为更具有同理心,平均评分为3.65;而医生的平均评分仅有2.15。整体上医生的得分比ChatGPT低了41%,这相当于医生回答仅稍微有同理心,而ChatGPT的回答整体属于有同理心。
此外,医生的回答被评定为仅具有轻微同理心(
这相当于ChatGPT相对于医生获得了5.4倍的巨大优势。
ChatGPT的回答被评为具有同理心或非常具有同理心的比例为45.1%,远远高于医生的4.6%;这相当于ChatGPT在同情心方面相对于医生取得了9.8倍的优势。
透过以上的对比,显而易见,即使ChatGPT不过是初出茅庐的通用专家,在医学问答方面对经过多年医学教育和训练的医学博士(美国的临床医生都是博士)+多年临床实践经验积累的临床专家就可以轻而易举产生碾压性优势。
让人稍感意外的是,ChatGPT更大的优势居然是在同情心方面,而不是回答的医学专业性和质量方面。
这样看来,等到真正的经过充分训练的“专业人工智能医生”问世,对人类医生产生我前面预期的“全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个小脚指甲”的无以言表的优势,绝非妄言。
排版 | 里里
审核 | 暖暖
来源 | 医休神介说
CCTV兵器科技频道 2024-12-24
武器科技 2024-12-23
IT之家 2024-12-24
腾讯科技 2024-12-24
腾讯科技 2024-12-24
IT之家 2024-12-24
武器科技 2024-12-23
IT之家 2024-12-24
IT之家 2024-12-24
武器科技 2024-12-23