谷歌发表Nature论文，推出“医学版ChatGPT”，基于大语言模型的“AI医生”已开始临床测试

作者：生物世界发布时间：2023-07-13

谷歌发表Nature论文，推出“医学版ChatGPT”，基于大语言模型的“AI医生”已开始临床测试

撰文丨王聪

编辑丨王多鱼

排版丨水成文

2022年底，OpenAI推出的基于大语言模型（Large language model，LLM）的聊天机器人ChatGPT展示了令人印象深刻的强大能力，但大语言模型在临床应用的门槛很高。

医学是一项人性化的事业，其中语言是临床医生、研究人员和患者之间的沟通互动的关键。人工智能（AI）模型，尤其是最近取得进展的大语言模型（Large language models，LLMs），为AI在医学领域的应用带来了新的希望。它们在医学领域有许多潜力，包括知识检索和支持临床决策。

这些AI模型虽然在一定程度上可用，但主要是单任务系统，缺乏表达能力和交互能力，还可能会编造令人信服的医疗错误信息，或纳入偏见加剧健康不平等。因此，现有的AI模型所能做的和在现实世界的临床工作流程中对它们的期望之间存在着不一致，使其难以转化为真实世界的可靠性或价值。

2023年7月12日，谷歌和谷歌旗下人工智能公司DeepMind的研究人员在国际顶尖学术期刊 Nature 上发表了题为：Large language models encode clinical knowledge 的研究论文。

该研究展示了一个基准，用于评估大语言模型（LLM）能够多好回答医学问题，还介绍了一个专精医学领域的大语言模型——Med-PaLM。

大型语言模型（LLMs）的最新进展为重新思考人工智能系统提供了机会，语言是调解人类与人工智能交互的工具。大型语言模型作为“基础模型”，是经过预训练的大型人工智能系统，可以在众多领域和不同任务中以最小的努力重新调整用途。这些表达和交互的模型在从医学语料库中编码的知识中大规模学习普遍有用的表达方面提供了巨大的希望。这些模型在医学上有几个令人兴奋的潜在应用，包括知识检索、临床决策支持、关键发现总结、患者分诊、解决初级保健问题等等。

然而，该领域的安全关键性质需要经过深思熟虑的评估框架的开发，使研究人员能够有意义地衡量进展，并获取和减轻潜在的危害。这对大语言模型来说尤其重要，因为这些模型可能生成与临床和社会价值不一致的信息。例如，它们可能会生成令人信服的医疗错误信息，或者包含可能加剧健康不平等的偏见。

为评估大语言模型（LLM）编码临床医学知识的能力，研究团队探讨了它们回答医学问题的能力。这项任务非常具有挑战性，因为为医学问题提供高质量的答案需要理解医学背景，回忆适当的医学知识，并根据专家信息进行推理。

在这项研究中，提出了一个基准，称为MultiMedQA：它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及HealthSearchQA——这是一个新的数据集，包含3173个在线搜索的医学问题。通过这一基准来评估大语言模型回答医学问题的真实性、在推理中使用专业知识、有用性、准确性、健康公平性和潜在危害。

表现令人鼓舞

研究团队随后评估了PaLM（5400亿参数的大语言模型）及其变体Flan-PaLM。他们发现，在一些数据集中Flan-PaLM达到了最先进水平的表现。在整合美国医师执照考试类问题的MedQA数据集中，Flan-PaLM超过此前最先进的大语言模型达17%，达到了67.6%的准确率，达到了通过考试的标准（60%）。不过，虽然FLAN-PaLM的多选题成绩优良，进一步评估显示，它在回答消费者的医疗问题方面存在差距。

为解决这一问题，研究团队使用一种称为设计指令微调（instruction prompt tuning）的方式进一步调试Flan-PaLM适应医学领域。设计指令微调是让通用大语音模型适用新的专业领域的一种有效方法。

结果产生的新模型Med-PaLM在试行评估中表现令人鼓舞。例如，Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答，Med-PaLM的回答评分为92.6%，相当于医师做出的回答（92.9%）。同样地，Flan-PaLM有29.7%的回答被评为可能导致有害结果，Med-PaLM仅5.9%，相当于医师所作回答（6.5%）。

升级版已推出

值得一提的是，这篇在 Nature 论文中描述的 Med-PaLM 模型于2022年12月推出，而在今年5月份，谷歌在预印本平台发表论文，推出了升级版的Med-PaLM 2。

论文中显示，Med-PaLM 2是第一个在美国医疗执照考试（USMLE）类问题上达到专家级表现的大语言模型，能够正确回答多项选择题和开放式问题，并对答案进行推理，准确率高达86.5%，大幅超越了Med-PaLM以及GPT3.5。

Med-PaLM 2根据14项标准进行了测试，包括科学事实、准确性、医学共识、推理、偏见和危害，由来自不同背景和国家的临床医生和非临床医生进行评估。研究团队还发现该模型在回答医学问题方面仍存在一些差距，但并未具体说明，谷歌表示，进一步开发和改进该模型以解决这些差距，并了解大语言模型如何改善医疗保健。

已在梅奥医学中心开展临床测试

据报道，Med-PaLM 2目前正在世界顶尖的医疗机构梅奥医学中心进行初步试验。谷歌认为，这种模式在“看病机会有限”的国家尤其有用。他们还表示，在Med-PaLM 2试验期间提交的用户数据将被加密，谷歌无法访问，并由用户自己控制。

总的来说，Med-PaLM是一个强大的专精医学领域的大语言模型，而设计指令微调是一种有效的数据和参数校准技术，能够提高大语言模型的准确性、真实性、一致性、安全性，减少危害和偏差等因素，有助于缩小模型与临床专家的差距，使这些模型更接近现实世界的临床应用。

参考资料：

https://arxiv.org/pdf/2305.09617.pdf

https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/

谷歌发表Nature论文，推出“医学版ChatGPT”，基于大语言模型的“AI医生”已开始临床测试

谷歌发表Nature论文，推出“医学版ChatGPT”，基于大语言模型的“AI医生”已开始临床测试

推荐体验

相关资讯

会取代医生吗？Nature：谷歌推出“医学版ChatGPT”，已开始临床测试

Nature 最新：医学版 ChatGPT 已开始临床测试

谷歌正式推出“医疗ChatGPT”——MedLM，达到医学专家水平，测试结果在Nature发表

这家融资7亿美元的AI制药公司发表Nature论文，推出生成式AI蛋白质设计模型，已免费开源

谷歌医学AI登Nature；京东推出言犀大模型；传Meta将发布AI模型商业版丨AIGC大事日报

近期资讯

七彩祥云来了！新大理站惊艳亮相：七种色彩来回切换

惠州市朗达工业取得电池转接板专利，便于拆装电池，缩小体积，降低运输成本

华为Mate 70系列一机难求：从元旦开始供货量会增加

客机坠毁25岁空姐幸存掩面痛哭：仍处于极大心理压力中

还要啥英特尔、AMD啊！国产最强桌面CPU卖爆：销量破千万

久违的麒麟回归！华为重磅新机首度曝光：取代高通

红米Turbo 4外观巨变！员工：我最喜欢的REDMI设计

北大数学家独作论文登数学顶刊！统一算术与几何大猜想

八五九分公司强化科技引领打造“智慧农业”

警惕超大显存的魔改显卡：买了就后悔

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响