ChatGPT在医学教育辅助、行政工作协助和临床诊疗等方面都有潜在的应用前景。然而,在训练AI算法所依赖的数据中,医学信息更加复杂且可及性更差,使得有关医疗的AI结果存在误导性。
撰文 |
宋安娜
在发布已经两个多月后,ChatGPT依然很火,目前它的全球活跃用户已经达到1亿,成为史上增长最快的应用。人们在社交媒体上不断地展示与这个AI的对话,并且伴随着各种各样的赞叹声。一些链接的标题写着,“全班最高分的论文竟然是AI写的”“一位法官刚刚使用ChatGPT做出法庭判决”......
这个当今最火爆的人工智能语言模型来自位于硅谷的实验室OpenAI,它走出了程序员的电脑,走进了大众视野。它的出圈,让AI的进展变得如此具体、可感。而在全民娱乐的表象背后,业内人关心的是,ChatGPT会给世界带来哪些深刻的改变?
硅谷科技公司PerceptIn创始人刘少山在接受媒体采访时谈到,ChatGPT有更好的语言理解能力,意味着它可以更像一个通用的任务助理,能够和不同行业结合,衍生出很多应用场景。
医疗无疑就是其中一个很重要的领域。自去年12月起,ChatGPT已经开始频繁地出现在一些医学论文当中,医生和生物科学家们正热衷于尝试和探讨它在各种疾病和医学各专业中的应用潜能。来自美国斯坦福大学的学者们在JAMA上发表的文章,探讨了ChatGPT提供的有关心血管疾病预防建议的恰当性;还有的学者利用这个AI模型来诊断阿尔茨海默病.......
根据世界卫生组织的数据,预计到2030年全球将有1000万医护人员短缺,主要是在低收入国家。《福布斯》杂志在2月6日的一篇文章中指出,在全球那些医疗服务匮乏的地区,人工智能可以扩大人们获得优质医疗保健的机会。
虽然以ChatGPT为代表的人工智能在医学上的应用前景令人兴奋,但是它也存在提供的信息不准确、有虚构和偏见等问题,使得其在这个专业门槛很高的行业中应用时应该更加审慎。《放射学》杂志编辑、纽约大学格罗斯曼医学院放射学教授Linda Moy近日表示,“我认为这肯定会有所帮助,但人工智能的一切使用都需要监督。”
图源:网络视频截屏
从医学教育到临床诊疗:ChatGPT潜能初现
在那些迫不及待地想了解“ChatGPT在医疗领域将有哪些作为”的专业人士中,来自美国加州的肺科医生Victor Tseng是一个。他所在的诊所Ansible Health最近成立了一个特别小组,专门来研究这个问题。
他们给这个AI模型出的一个难题,是让它去参加美国的医生执照考试USMLE。这项考试难度很大,不仅测试考生的基础科学和医学知识以及病例管理,而且也评估他们在临床判断、伦理、批判性思维和解决问题方面的能力,考生通常要花费成百上千个小时来备考。
研究团队使用了来自2022年6月的305道公开官方样题,这些试题还没有被纳入到ChatGPT训练的文本数据中。尽管如此,出乎研究者意料的是,ChatGPT在三项考试中几乎全都及格,或是接近及格。
2月1日,在《ChatGPT辅助医疗:希望与陷阱》一文中,美国著名医疗媒体STAT写道,ChatGPT在医学教育辅助、行政工作协助和临床诊疗等方面都有潜在的应用前景。比如,美国医学教育的理念正在从围绕记忆、储存信息,逐渐转向强调组织、应用医学知识。而ChatGPT这样的人工智能系统,可以帮助医学生和医生更有效地学习,以此来促进这种转变。
当我问一位生物工程领域的教授,对ChatGPT在医学中的前景有何看法时,他说,“我还没有考虑那么多,我现在正在考虑的问题是,怎么提高我的工作效率。我昨晚上还在用ChatGPT把我的课件变成文本文件,这样可以很快地把一个讲义生成。”
不要小看ChatGPT在这种小事上的能力。许多业内人士都表示,ChatGPT可能可以帮助医生们节约大量花在行政事务上的时间,优化诊疗流程管理,节省出更多宝贵的时间。
在2018年美国的一项调研中,70%的医生表示,他们每周在文书工作和行政任务上花费10个小时以上,其中近三分之一的人花费了20个小时或更长时间。英国知名的圣玛丽医院的两名医生2月6日发表在《柳叶刀》上的评述文章指出,医疗保健是一个具有很大的标准化空间的行业,特别是在文档方面。我们应该对这些技术进步做出反应,并探索在医疗保健的不同场景使用聊天机器人 (如ChatGPT) 的可行性。
“出院小结”是这项技术一个很典型的应用,作者指出,因为它们在很大程度上是标准化的格式。ChatGPT在医生输入特定信息的简要说明、需详细说明的概念和要解释的医嘱后,在几秒钟内即可输出正式的出院摘要。这一过程的自动化可以减轻低年资医生的工作负担,让他们有更多时间为患者提供服务。
比如,美国的临床医生往往需要花费大量的时间写授权信,以帮助患者获得保险支付。STAT的作者们把这样一个具体的任务扔给ChatGPT后,几秒钟之后就收到了一封电子邮件的初稿,虽然还需进一步编辑,但基本上传达了主要的信息。
2022年12月27日,美国西北大学的一个团队在预印本论文bioRxiv上发表了一篇文章。这项研究中,研究者让ChatGPT学习发表在《柳叶刀》《美国医学会杂志》等顶刊上的文章,并撰写50篇医学研究摘要,结果发现,ChatGPT生成的摘要全部顺利通过了抄袭检测器。
更激进一点,ChatGPT可以帮助进行临床诊疗吗?2022年12月22日,来自美国德雷塞尔大学的两名学者在PLOS Digital Health上发表的一篇论文探索了ChatGPT在这方面的能力。他们将它用于诊断阿尔茨海默病 (AD) 。
作为痴呆症中最常见的一种,阿尔茨海默病 (AD) 是一种退行性中枢神经系统疾病,多年来科学家们一直在研发抗AD的特效药,但目前进展很有限。目前诊断AD的做法通常包括病史回顾和冗长的身体和神经系统评估和测试。
由于60%~80%的痴呆症患者都有语言障碍,研究人员一直在关注那些能够捕捉细微语言线索的应用,包括识别犹豫、语法和发音错误以及忘记词语等,将其作为筛查早期AD的一种快捷、低成本的手段。德雷塞尔大学发表的这项研究发现,OpenAI的GPT-3程序,可以从自发语音中识别线索,预测痴呆症早期阶段的准确率达到80%。
人工智能可以用作有效的决策支持系统,为医生提供有价值的数据以用于诊断和治疗。人眼可能会错过CT扫描中的微小异常,但经过训练的AI却能跟踪最小的细节。一位IT领域的专家告诉“医学界”,ChatGPT对于临床医学可能会有很大的帮助,毕竟每个医生的记忆都有限,无论如何也比不过计算机的强大存储。
在更加基础的生物医学领域,ChatGPT也被认为是具有革命性。生命科学领域非常著名的风投机构Flagship Pioneering因孵化出Moderna公司而誉满天下,其创始人、MIT生物工程专业博士努巴尔·阿费扬 (Noubar Afeyan) 在对2023年的展望中写道,人工智能将在本世纪改变生物学,就像生物信息学在上个世纪改变生物学一样。
他指出,机器学习模型、计算能力和数据可用性的进步,让以前悬而未决的巨大挑战正在被解决,并为开发新的蛋白质和其他生物分子创造了机会。最近,他的团队在Generate Biomedicines上发表的成果表明,这些新工具能够预测、设计并最终生成全新的蛋白质,其结构和折叠模式经过逆向工程,来编码实现所需的药用功能。
面临数据、伦理、风险等多方挑战
1月16日,美国圣地亚哥斯克里普斯研究所的创始人Eric Topol在他的网站上更新了文章。2019年,在其写作《深度医学》这本书时,他说,深度学习对医学变革的作用在很大程度上还局限于对医学图像的解读。而在四年之后,AI在大型语言模型 (LLM) 方面取得的进展,使得医学领域的AI不再只是执行单个限定任务,而可以在多个方向前进,包括电子健康记录、影像学、生物医学 (如基因组和肠道微生物组) 、医疗的社会因素等等。
GPT英文全称为Generative Pre-trained Transformer (生成式预训练转换器) ,是一种基于互联网可用数据训练的文本生成深度学习模型。即使以前从未见过特定的文本序列,它也可以根据之前海量文本中的上下文来预测句子中会出现的单词,并做出响应。
Transformer一个显著的特点,是其训练数据规模非常之大。今天很多令人惊叹的AI成果,包括预测了地球上几乎所有已知蛋白质的人工智能系统AlphaFold,都是基于Transformer的大规模语言模型。
此次发布的ChatGPT更准确的说是GPT-3.5。2018年6月,OpenAI就首次介绍了自己的语言模型GPT-1,其在Transformer架构上,使用了包含几十亿个文本文档的超大规模语言资料库进行训练,参数量为1.17亿。2020年,规模大百倍的GPT-3诞生。GPT-3是一个包含1750亿个参数的公式,来处理所有互联网上的数据,以理解人类当今的文本和语言,这使得它在自然语言处理领域有了如此看似自然的表现。
AI已然成为医学领域当中一个不可忽视的角色,目前已经用于帮助预测肾病、简化放射科报告、预测白血病缓解率等场景。
2022年3月,谷歌医疗推出了新的研究项目,旨在利用人工智能将手机变成听诊器和其他疾病的家庭医疗筛查工具;10月,谷歌重磅推出了人工智能医学影像套件。
2022年底,谷歌和人工智能实验室DeepMind发表了一篇论文,概述了其在Med-PaLM方面的工作——该大型语言模型旨在通过多个数据集,训练在医学领域生成准确、有用的答案;而开发者也能通过ChatGPT的API接口开发医疗应用程序......所有这些都表明,科技正在革新医疗领域。
不过,对ChatGPT等人工智能过分乐观和不加审视的使用都是不恰当的。前述IT界的人士对“医学界”表示,ChatGPT属于一个叫做生成式AI的领域,这个工具对于文案生成 (content creation) 的影响是巨大的,比如帮助学生们写论文、邮件、甚至是写诉讼文件。然而,ChatGPT只能根据训练它的数据进行文字的重新组合,对于科学研究,他认为,毫无帮助。
2022年1月,发表在《连线》杂志上的文章《医疗界的AI还有很长的路要走》写道,在训练AI算法所依赖的数据当中,医学信息更加复杂且可及性更差,使得有关医疗的AI结果存在误导性。
科技行业与研究型医院的情况非常不同。《连线》杂志指出,Facebook等公司可以访问用户发布的数十亿张照片,以改进图像识别算法。然而,由于对隐私问题的担忧和医院IT系统的陈旧,获取健康数据无疑更加困难。
纽约大学格罗斯曼医学院放射学教授Linda Moy近期她审阅了一篇由ChatGPT撰写的文章。她表示,ChatGPT的文章挺准确的,但它编造了一些参考文献。此外,她还担心,AI可能会编造数据。
人工智能的好坏取决于开发者们“投喂”给它的信息,然而,网上有很多关于新冠疫苗的不准确信息,ChatGPT却“照单全收”,利用这些信息会产生不准确的结果。
“我们不能把为消费者领域开发的人工智能工具,轻易搬到临床医学领域。”美国亚利桑那州立大学副教授维萨·贝里沙 (Visar Berisha) 表示。他与同事们在2021年发表的一篇期刊文章发现,许多健康类AI研究的算法结果看起来比实际更准确,因为它们是在很小的数据集上使用了强大的算法。
另一方面,对医疗健康研究长期以来的不平等,使得医疗数据集本身就带有偏差。斯坦福大学的研究人员2020年发表的一项研究指出,在将深度学习应用于美国医疗数据的研究中,71%的数据来自加利福尼亚州、马萨诸塞州或纽约州,其他47个州的数据很少或根本没有;低收入国家在人工智能的医疗健康研究中几乎没有任何代表性。
一位阿尔茨海默症领域的研究人员的看法是,ChatGPT对于了解生物医学某个领域的概况,还是很有帮助的,但是不能涉及到具体数据和实验方法。与此同时,使用这些医学类的生成信息需要人工把关,一个很大的问题是,ChatGPT目前无法识别对错。他曾经对ChatGPT说:2023年是农历狗年,请写一段祝福语。然后ChatGPT就照做了,然而,2023年实际上是兔年。
为了验证其可靠性,我问ChatGPT:一个90岁的房颤病人,多发微出血,梗死直径小于1.5cm,什么时候抗凝合适?
它很快输出了以下这段话:对干一个90岁的房颤病人,有多发微出血,梗死直径小于1.5cm的情况,决定是否启用抗凝治疗需要评估多重因素,包括患者的总体健康状况、梗死的位置和大小,以及与抗凝治疗相关的风险和潜在的副作用。在考虑抗凝治疗的情况下,年龄较高的患者可能面临更高的风险,因此需要与专业的医生或卒中专家进行详细咨询。患者的健康状况和其他因素,如药物过敏史和与抗凝药物相关的其他疾病,也应该考虑。
它的回答看起来“一本正经”,但细看又是毫无意义的空话。
而AI在医学伦理方面的问题也值得关注。就在上周末,一家线上心理健康公司因为使用GPT-3技术开展心理咨询服务而在网络上引起愤怒,因为患者并没有得到知情同意——他们不知道得到的回复是由机器人创建的。
前述《柳叶刀》的最新文章指出,必须考虑这项技术的可接受性,特别是患者的可接受性,对医疗护理的非人性化担忧可能会导致对AI的抵制;另一方面,虽然在家里问聊天机器人一些琐碎的问题可能不会有什么后果,但不正确或不充分的药物等信息会极大地影响患者的治疗。
是的,ChatGPT自己也说:我通过训练学到了关于医学的一些知识。但是,需要指出的是,我是一个人工智能模型,不能代替专业的医生或医疗保健提供者。如果您有严重的健康问题,请咨询您的医生。
来源:医学界
责编:田栋梁
校对:臧恒佳
编辑:赵 静
*"医学界"力求所发表内容专业、可靠,但不对内容的准确性做出承诺;请相关各方在采用或以此作为决策依据时另行核查。