最近全网风靡的ChatGPT火了,火出圈了,这股红红火火的热风也吹到了医药圈子。作为一名资深医学编辑,自然也想对这个新兴技术在医药领域的应用进行一番探索和讨论。(新人up,蹭蹭余温:P)
简单而言,ChatGPT是一个聊天机器人(Chatbot),本质是一种基于人工智能的自然语言生成技术。它在自然语言处理领域的表现已经备受赞誉,但其在医药领域的应用却并不是那么简单。医药一直以来都是信息量大、专业度高、处理难度大的领域。ChatGPT可以自动化生成各种医疗信息,包括医学文献、病例报告、药品说明书等。越来越多的医疗机构和医生开始使用它来提高信息处理效率和准确性,缓解医务人员的工作负担[1]。但是,其在真实医学场景下应用如何?又能带给我们医学相关工作者什么样的体验?是否会真的让编辑失业呢?我们带着这些问题一起来看一下。
随着这两天对于ChatGPT的重度使用以及经验总结;结合在PubMed,Google Scholar,MedRxiv,BioRxiv数据库中,以“ChatGPT”、“Medical”为关键词进行的综合检索(截至2023年2月21日),我们总结出了目前为止经发表的ChatGPT在医药领域的“擅长”点:
医学写作(Writing)
医学问答(Q&A)
医学翻译(Translation)
代码编写(Coding)
首先,我们想通过循证——文献检索的方式找一些研究实例或者数据,但鉴于目前已发表的关于ChatGPT用于医学场景实例的内容并不多。通过Google或者Pubmed找到的大部分文章属于围绕ChatGPT的综述,评论和新闻稿,并且也指向寥寥几篇预印版的研究文献。最终,我们统计了来自生物医药预印本平台MedRxiv和BioRxiv共13篇研究文献,发现其应用均集中在医学写作和问答方面(以下汇总并列出证据):
医学写作(Writing)
Catherine A. Gao等人尝试用ChatGPT生成科学摘要(abstracts)[1]。他们收集了来自JAMA、新英格兰医学杂志、BMJ、柳叶刀和自然医学等期刊上发表文章摘要50篇,另通过ChatGPT根据期刊和文章标题自动生成摘要50篇,并接受抄袭检测。结果发现:ChatGPT生成的摘要在抄袭检测中通过了检查。专门检测AI生成文本的检测器仅仅能筛出66%的AI生成摘要;并且人类评审的表现也差强人意,他们仅正确识别出68%的生成摘要和86%的真实摘要(并且人类评审错误地将32%的生成摘要认为是真实的,将14%的真实摘要认为是生成的)。
James R. A. Benoit等人尝试用ChatGPT生成或重写临床案例(clinical vignettes)[2]。研究人员预定义了 10个常见的儿童疾病以及相应症状,并给予ChatGPT不同的提示和要求。ChatGPT最终生成或重写了共45个临床案例,最后再由ChatGPT根据案例来诊断疾病。结果发现:ChatGPT可以根据给定疾病、症状的定义或要求,快速生成临床案例,但是会过分倾向于其中的某些症状描述。针对不同角色视角的案例重写也能发挥作用。根据案例诊断疾病时,ChatGPT能够以75.6%(95%CI:62.6%至88.5%)的首次诊断准确率和57.8%(95%CI:42.9%至72.7%)的分类准确率识别疾病。
Francesco Sanmarchi等人研究了ChatGPT如何支持科研人员进行流行病学研究的设计[3]。研究者使用ChatGPT将STROBE建议转化为问题清单(checklist),并对转化结果的连贯性和相关性进行了质性评估。结果发现:ChatGPT可以作为支持科研人员进行流行病学研究的有价值工具。针对ChatGPT给出的问题清单,评估连贯性的平均得分为3.6/5.0,评估相关性的平均得分为3.3/5.0,得分具有异质性,其中围绕“研究方法”给出的检查清单得分最低。
医学问答(Q&A)
Arya Rao等人尝试用ChatGPT为乳腺癌筛查和乳房疼痛患者的影像学分诊提供临床决策支持[4]。由ChatGPT根据患者信息选择合适的影像学服务,研究者将ChatGPT的回答与美国放射学学院(ACR)的适宜性标准进行比较,以评估ChatGPT选择的影像学服务的合规性。结果发现:ChatGPT在乳腺癌筛查提示中,模拟患者交互的平均得分为1.83(满分为2),模拟ACR指南应用的平均正确率为88.9%;而在乳房疼痛提示中,模拟患者交互的平均得分为1.125(满分为2),模拟ACR指南应用的平均正确率为58.3%。
Yee Hui Yeo等人检查了ChatGPT在回答与肝硬化和肝细胞癌相关的知识、管理和情感支持方面的准确性和可重复性[5]。研究者使用了164个问题来测试ChatGPT的性能。结果发现:ChatGPT表现出广泛的肝硬化和肝细胞癌知识,在基本知识、生活方式和治疗方面的表现比在诊断和预防医学领域更好。ChatGPT对肝硬化管理的26项问题的回答正确率为76.9%,但未能指定决策的时间点和治疗持续时间。与医生/培训医生相比,ChatGPT缺乏对区域指南变化(如HCC筛查标准)的了解。然而,对于患者和照顾者有关下一步行动和适应新诊断的实用和多方面建议,ChatGPT提供了更多的情感支持。
Fares Antaki等人尝试用ChatGPT回答眼科领域的问题,并且对其准确性进行了测试[6]。测试采用了2个用于高风险眼科知识评估计划 (OKAP) 考试的多项选择题库,测试集难度适中,话题广泛,包括记忆,解释,实践和临床决策问题,共2 x 260题。结果发现:ChatGPT 在这两个260道试题的模拟考试中分别达到了55.8%和42.7%的准确率。其表现在不同的眼科分支领域有所不同,总体医学的表现最好,而神经眼科、眼科病理学和眼内肿瘤的表现最差。
Tiffany H. Kung等人研究了ChatGPT在美国医学执照考试(USMLE)中的表现[7],该考试包括三个考试科目:Step 1(初级医学生用),Step 2CK(四年级医学生用)和Step 3(毕业后的医生用)。结果发现:ChatGPT在三个考试科目中的正确率(统计完全正确和中等正确的答案)分别约为68.0%,58.3%和62.4%,表现接近或达到及格门槛,并且无需任何专门的培训或强化学习。
Aidan Gilson等人同样评估了ChatGPT在美国医学执照考试(USMLE)Step 1和Step 2范围内问题上的表现[8],并分析了其回答的可解释性。研究使用了两个不同的问题集进行评估,形成共4个问题集,分别是AMBOSS-step1,AMBOSS-step2,NBMEFree-step1,NBMEFree-step2。结果发现:ChatGPT在四个数据集上的准确率分别为44%,42%,64.4%和57.8%,在NBMEFree-step1数据集上表现优秀。并且ChatGPT能够提供推理和信息上下文。
Dat Duong等人评估了ChatGPT在遗传学问题上的表现,并将其与人类回答同一组问题的表现进行比较[9]。结果发现:总的回答正确率,ChatGPT为68.2%,人类为79.3%(p=0.8145);记忆性问题正确率,ChatGPT为80.3%,人类为74.0%(p=0.2635);批判性思维问题正确率,ChatGPT为26.3%,人类为48.6%(p=0.06513);而ChatGPT本身,相较于回答批判性思维问题,更擅长处理记忆性问题(<.001)。总体而言,ChatGPT在记忆性问题上表现得更好,而在需要进行批判性思考的问题上表现得不如人类,且在同一问题被问到多次时往往会给出不同的答案。但ChatGPT的表现与人类回答者并没有显著的统计学差异,并且在提供正确和错误答案的合理解释方面表现得很好。
Oded Nov等人评估了ChatGPT或类似的基于AI的聊天机器人(Chatbot)在医患交流中的可行性[10],特别是患者是否能够区分Chatbot和医疗服务提供者的回答,以及患者对Chatbot功能的信任程度。研究采用了一项调查,通过给430例参与者展示10个医患互动问题的回答(5个由人类回答,5个由ChatGPT生成),来评估参与者是否能够正确识别回答的来源。结果发现:对于不同的问题,ChatGPT被参与者正确识别的比例在49.0%~85.7%。ChatGPT的回答在可行性上与人类的回答没有显著区别。并且,随着问题难度的提高,参与者对Chatbot的信任度下降。
Jun-hee Kim等人评估了ChatGPT 在肩峰下卡压综合征(SIS,常称为肩卡压)方面提供医疗信息和治疗选择的能力[11]。研究人员尝试让ChatGPT回答与 SIS 相关的问题,分析了由ChatGPT提供的医疗信息和治疗选择。结果发现:ChatGPT可以完整提供SIS的定义、患病率、危险因素、症状、类似症状的疾病、矫形测试等相关信息,并列出治疗选项和锻炼方式。总体而言,ChatGPT 可以为对 SIS 不熟悉的患者提供有用的医疗信息和治疗选项,但需要注意其可能存在的偏见或不当信息。
David M Levine等人研究比较了ChatGPT,对比互联网上的普通人以及临床医生对病例的诊断和分级(严重程度)表现[12]。研究人员给出了48个从常规疾病(如病毒感染)到严重疾病(心肌梗塞)的临床病例。结果发现:在诊断方面,ChatGPT能够正确诊断88%的病例,比普通人(54%,p<0.001)强,但比医生(96%,0.0354)差;在分级方面,ChatGPT正确分类(71%),与普通人(74%,p=0.73)相似,但都比医生差(91%,p<0.01)。
Adam Hulman等人尝试用 ChatGPT来回答关于糖尿病的常见问题[13]。研究者通过一项类图灵测试和非劣效试验的闭合电子调查,让参与者辨别出ChatGPT 生成的回答和人工专家提供的回答。183例来自丹麦一家大型糖尿病中心的员工参与了本次调查。结果显示:59.5%的参与者能够区分 ChatGPT 生成的回答和人工专家的回答,但这种区分的效果更多依赖于语言特征,而非回答的内容。相比之前未有ChatGPT使用经验的人,有使用过ChatGPT的人更容易辨别出答案来源(OR=1.52,95%CI:1.16-2.00)。
由此看出,ChatGPT在处理基于文本类的工作,例如撰写文章、报告、病例,以及回答各学科的问题等,都有不输于人类的表现,但同时也没有表现绝对的更优。毕竟,ChatGPT的特征是语言生成和语言处理;但是,其输出往往会有所侧重(这可能由于训练集的偏倚导致),有时甚至会给出不恰当的信息,涉及专业场景,表现并没有显著优于专业的医疗工作者。另外,对于批判性、创造性的问题,ChatGPT表现似乎尚且欠佳。
有学者对ChatGPT撰写出可信的科学摘要表示担心,关于如何使用类似ChatGPT的大型语言模型(LLM)协助科学写作的道德和界限变得模糊了。将来,科学家所浏览的研究文献,其真实性也将受到挑战(图3)[1, 14]。让ChatGPT来写学术摘要,确实到了可以以假乱真的地步,但这是由于摘要本身具有相对固定的范式(即模板化),机器易于习得其规律。并且,摘要往往是总结性质的,讨论偏宏大、宽泛。真实的研究,数据,以及背后更加深刻的讨论,机器并不会表现得很好。因此,我个人并不担心机器或者算法,真的可以代替研究者去完成完整的学术创作,至少短期内不太可能实现。但同时,又对此持谨慎态度,ChatGPT具备撰写学术摘要的能力确实值得让学术圈子敲响警钟。学术创作,终归是不可交给一个不能承担任何责任、不受任何道德约束的机器去完成的。
撇开科研学术不谈,对于我们医学编辑(Medical Writer)而言,类似的语言生成式AI是否会让我们丢了工作呢?其实,我们文章的开头也是ChatGPT生成的(图4),是不是看着还挺像模像样的。我的工作仅仅是在此基础上做了一点调整和改写,再加了一个略微“生硬”的引子,一篇推文的开头就做好了。
但是,人类的优势就在这一点点修改和调整上。首先,ChatGPT对于生成的文本可能存在偏见,误导,甚至错误。例如,我们希望ChatGPT提供我们一些其观点的出处,或者某些可供参考书籍,综述,研究论文等。过程中我们发现ChatGPT会反馈一些“编造”出来的文献,看似有模有样,甚至能给出具体网页链接,作者,期刊名,甚至是DOI。但其实这一切都是由机器或者算法“生成”的。其本质原因在于,ChatGPT是通过学习巨量的在线文本语言来得到模型参数,由算法模型输出“最有可能的”答案,类似这样的模式来运作的;而这些被学习的文本中,对于专业性质的文本有限,其中甚至可能存在一些偏见,虚假或者已经过时的信息[15]。其次,ChatGPT缺乏“创造力”,它基于训练的数据生成文本,并不会超出训练习得的经验。并且,ChatGPT在特定专业领域的理解和应用是不如人类的,它看似能“找”到规律,但并不会活用规律。最后,若是将AI完全代替人类,可能会道德和法律(例如版权)的问题[16]。因此,将AI作为工具就好,他能够辅助我们医学编辑完成一些任务,但同样需要我们的监管和优化。
医学翻译(Translation)
在翻译方面,不敢说一定强于人工翻译吧,但其表现确实要比市面上常用的医学翻译工具要高出一大截。目前我们的医学翻译模式,通常是“机器翻译+人工校准”,或者纯“人工翻译”,为什么脱离不了人呢?因为医学翻译中,往往有特别多的专业词汇,并且非常强调语境理解(意译),另外有涉及到学术推广,患者教育的场合。机器并不会像人一样思考,所以很容易被看出是机翻。ChatGPT的翻译优势总结下来有2点:
1、不仅翻译,还给注释;
2、人机交互,即时优化。
在上面的例子中,我们要翻译一个医学专业词汇。可以看到ChatGPT的翻译本身就是最准确的,即使在没有提供任何语境的前提下,它“预判”了我们的语境。虽然它没有像DeepL一样给出多种翻译选择,但是它给到了补充信息和注释,这对于医学编辑来说很有帮助,可以直接当百科来使用。因为往往对于专业词汇,即便我们知道了中文也不一定知道其含义,或者没有办法确定机器给的翻译是否正确。而一同出现的解释说明文字,则能很好地起到佐证的作用。
另外,由于Chatbot的可交互性,你可以即时地向ChatGPT提出例如润色,换个说话等要求,它同样会给出多种翻译选择。或者你向ChatGPT输入更丰富的上下文,场景描述等,它可以轻松判断出是普通翻译,还是学术语境,能够实现更准确的翻译。因此,“机器翻译+人工校准”可以直接一次性在一个界面完成,听起来是不是很棒。(听起来值得调用一下ChatGPT的API来自制一个翻译小程序了!)
反过来的中译英同样如此,例如,我写了一个中文的research protocol,打算尝试投稿给Trails或者BMJ系列的期刊,需要翻译成英文,我可以要求ChatGPT翻译成该杂志的格式,再进行润色。但仍需要注意的是,ChatGPT同样会犯一些术语和本地化常识向的错误,因此,我们不可忽略对于译文进行“人工校准”的重要性!
代码编写(Coding)
写代码,应该也是一个经常被论及的场景,个人使用下来发现(仅测试R的代码编写):ChatGPT对于简单的,任务目标明确的代码编辑工作,确实可以代替人工完成(图7)。它不仅能提供代码,还会给予解释说明;如果报错,你还可以反馈给它报错信息,它会来个在线debug(可交互性)。用于对分析、开发编程过程中的头脑风暴或者参考,体验还不错;但是对于复杂的需求,ChatGPT确实应付不了,甚至会给出错误的答案。去年12月,Stack Overflow(一个程序员互问互答的论坛)就临时禁用了ChatGPT,因为太多用户上传由ChatGPT生成的答案,而这些答案,大部分是错误的。如果将来再由搜索引擎传播给更多人,后果将不堪设想。
诚然,ChatGPT的横空出世,让不少人重新认识了AI,关注上了AI;其火出圈,也让不少人开始重新思考,AI如何才能结合到自己的领域,发挥其助力。同时,也不断冒出一些诸如AI替写作业,AI替写论文等灰色事件,引发围绕学术道德的讨论;以及“AI可以替代人类,编辑要失业啦”之流的言论。总体而言,有人炒作,更多人关注,开启更多思考和讨论,只要监管在线和言论得当,并不是坏事。
至于ChatGPT在目前医药领域的应用,我只是通过分享使用经验,和循证了一些研究,浅薄地总结出了以下四个优势方面:医学写作(Writing)、医学问答(Q&A)、医学翻译(Translation)、代码编写(Coding)。并且,ChatGPT并不能完全替代甚至脱离人类而独立工作。也许未来,随着AI模型的反复优化,数据的不断积累,算力的进一步提高,类似ChatGTP的Chatbot可以在金融、教育、医疗等专业领域有更深层次的应用。但是目前,AI+human的“人机搭配”模式,才是真正的“干活不累”。
参考文献:
BioRxiv preprint doi: https://doi.org/10.1101/2022.12.23.521610
medRxiv preprint doi: https://doi.org/10.1101/2023.02.04.23285478
medRxiv preprint doi: https://doi.org/10.1101/2023.02.06.23285514
medRxiv preprint doi: https://doi.org/10.1101/2023.02.02.23285399
medRxiv preprint doi: https://doi.org/10.1101/2023.02.06.23285449
medRxiv preprint doi: https://doi.org/10.1101/2023.01.22.23284882
medRxiv preprint doi: https://doi.org/10.1101/2022.12.19.22283643
medRxiv preprint doi: https://doi.org/10.1101/2022.12.23.22283901
medRxiv preprint doi: https://doi.org/10.1101/2023.01.27.23285115
medRxiv preprint doi: https://doi.org/10.1101/2023.01.23.23284735
medRxiv preprint doi: https://doi.org/10.1101/2022.12.16.22283512
medRxiv preprint doi: https://doi.org/10.1101/2023.01.30.23285067
medRxiv preprint doi: https://doi.org/10.1101/2023.02.13.23285745
Else H. (2023). Abstracts written by ChatGPT fool scientists. Nature, 613(7944), 423. https://doi.org/10.1038/d41586-023-00056-7
The AI writing on the wall. Nat Mach Intell 5, 1 (2023). https://doi.org/10.1038/s42256-023-00613-9
Biswas S. (2023). ChatGPT and the Future of Medical Writing. Radiology, 223312. Advance online publication. https://doi.org/10.1148/radiol.223312