(注:以下为翻译)
研究人员表示,他们的人工智能系统可以帮助实现医学民主化。
经过训练进行医疗访谈的人工智能 (AI) 系统在与模拟患者交谈并根据患者病史列出可能的诊断方面的表现可与人类医生相媲美甚至超越。
该聊天机器人基于谷歌开发的大型语言模型(LLM),在诊断呼吸系统和心血管疾病等方面比经过委员会认证的初级保健医生更准确。 与人类医生相比,它在医疗访谈中获得了相似数量的信息,并且在同理心方面排名更高。
世界准备好迎接 ChatGPT 治疗师了吗?
“据我们所知,这是第一次针对诊断对话和获取临床病史进行最佳设计的对话式人工智能系统,”伦敦 Google Health 的临床研究科学家、该书的合著者 Alan Karthikesalingam 说道。 Study1,于 1 月 11 日发布在 arXiv 预印本存储库中。 它尚未经过同行评审。
该聊天机器人被称为 Articulate Medical Intelligence Explorer (AMIE),目前仍处于纯粹的实验阶段。 它还没有在患有真正健康问题的人身上进行过测试——只在接受过描绘患有健康问题的人的训练的演员身上进行过测试。 “我们希望谨慎和谦虚地解释结果,”卡蒂克萨林加姆说。
尽管聊天机器人距离临床护理还很远,但作者认为它最终可能在医疗保健民主化方面发挥作用。 马萨诸塞州波士顿哈佛医学院的内科医生亚当·罗德曼说,这个工具可能会有帮助,但它不应该取代与医生的互动。 “医学不仅仅是收集信息,它还关乎人际关系,”他说。
学习一项微妙的任务
很少有人利用法学硕士进行医学研究,探索这些系统是否可以模仿医生获取个人病史并利用其做出诊断的能力。 罗德曼说,医学院的学生花了很多时间进行训练来做到这一点。 “这是向医生灌输的最重要和最困难的技能之一。”
加州山景城 Google Health 的人工智能研究科学家、该研究的合著者 Vivek Natarajan 表示,开发人员面临的一个挑战是缺乏可用作训练数据的现实世界医疗对话。 为了应对这一挑战,研究人员设计了一种让聊天机器人训练自己的“对话”的方法。
生成式人工智能可能会彻底改变医疗保健——但如果将控制权让给大型科技公司,情况就不会如此
研究人员利用现有的现实世界数据集(例如电子健康记录和转录的医疗对话)对基础法学硕士进行了第一轮微调。 为了进一步训练模型,研究人员要求法学硕士扮演患有特定病症的人,以及富有同理心的临床医生,旨在了解该人的病史并设计潜在的诊断。
该团队还要求该模型扮演另一个角色:扮演批评者的角色,评估医生与接受治疗的人的互动,并就如何改善这种互动提供反馈。 该批评用于进一步培训法学硕士并产生改进的对话。
为了测试该系统,研究人员招募了 20 名接受过模拟患者培训的人员,并让他们与 AMIE 和 20 名经过委员会认证的临床医生进行在线文本咨询。 他们不知道自己是在与人类还是机器人聊天。
演员们模拟了 149 个临床场景,然后被要求评估他们的经历。 一组专家还对 AMIE 和医生的表现进行了评估。
AMIE 在测试中表现出色
人工智能系统在所有六个医学专业中的诊断准确性均达到或超过了医生的诊断准确性。 该机器人在 26 项对话质量标准中的 24 项上优于医生,包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺。
“这绝不意味着语言模型在获取临床病史方面比医生更好,”Karthikesalingam 说。 他指出,研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动,这可能会影响他们的表现。
Karthikesalingam 表示,相比之下,法学硕士有一个不公平的优势,那就是能够快速撰写冗长且结构精美的答案,使其能够始终如一地体贴而不会感到疲倦。
想要:公正的聊天机器人
他说,这项研究的下一步重要一步是进行更详细的研究,以评估潜在的偏见,并确保该系统对不同人群是公平的。 谷歌团队也开始研究道德要求
nts 与有真正医疗问题的人一起测试该系统。
新加坡杜克-新加坡国立大学医学院的临床人工智能科学家 Daniel Ting 同意,探究系统中的偏见对于确保算法不会惩罚那些在训练数据集中没有得到很好体现的种族群体至关重要。
丁说,聊天机器人用户的隐私也是需要考虑的一个重要方面。 “对于目前许多商业大型语言模型平台,我们仍然不确定数据存储在哪里以及如何分析数据,”他说。