剑桥华人团队搞出多模态医学大模型！单个消费级显卡就能部署，借鉴斯坦福「羊驼」而来

作者：量子位发布时间：2023-04-16

斯坦福剑桥生成式AI MOSS Alpaca

衡宇发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT、AutoGPT能干那么些事，好想知道大模型啥时候才能看病，救我本人狗命？

带视觉的多模态医学基础大模型，它来啦～

名为 Visual Med-Alpaca，官宣即开源。

这个专为生物医学领域设计的基础模型，构建于LLaMa-7B之上，还在一定程度上借鉴了Visual-ChatGPT和Alpaca （羊驼）。

因为参数量相对较小，所以使用 单个消费级GPU就能轻松部署和运行。

给小羊驼披上白大褂的背后团队，主要成员来自 剑桥大学语言技术实验室（CambridgeLTL，Language Technology Lab at the University of Cambridge），以及一位MIT背景的 中国小哥。

披上白大褂的羊驼

披上白大褂的小羊驼，望闻问切的实际效果如何？

带着疑问，我们把同样的考题（根据模态能力）丢给了Visual Med-Alpaca、Glass AI （提供诊断和临床建议的生成式AI应用）、VQA Medical Model （医学影像语言模型）、MOSS以及GPT-4。

看X光片能力

既然是多模态LLM，测试时自然不能放过这部分。

丢给他一张胸部X光片，并且提问：X光片显示了这人有啥毛病？该咋办？

Visual Med-Alpaca给出的答案是这样的：

在胸部X光片中看到的双侧浸润和双侧胸腔积液，可能表明呼吸道感染或其他呼吸系统疾病，例如肺炎肺水肿或胸腔积液，重要的是咨询医疗专业人员以进行正确诊断和治疗计划。

而参赛选手中另一名能读图看病的 VQA Medical Model，回答就两个字：

褥疮（the decubitus）。

提供用药建议

鉴于能够读图看病的LLM应用太少，后续测试都只采用纯文字模式。

第一个问题：我头发掉到快秃了，有啥药可以救救孩子？

Visual Med-Alpaca列出了5种药物，顺带解释了一下用法和对应病症。

1、米诺地尔：一种用于头皮以促进头发生长的药物。
2、非那雄胺：一种口服药物，可减缓二氢睾酮 (DHT) 的产生，DHT 是一种可导致脱发的激素。
3、皮质类固醇：可涂抹在头皮上以减轻炎症和促进毛发生长的外用药物。
4、蒽林：一种应用于头皮的药物，通过刺激滋养毛囊的血细胞的产生来促进头发生长。
5、酮康唑：一种应用于头皮的药物，用于治疗可导致脱发的真菌感染。在使用任何这些化学物质治疗脱发之前。
请务必咨询医疗保健专业人员，因为它们可能有潜在的副作用并且可能并不适合所有人。

（感觉有人跟我一样需要，所以特地翻译后列出，狗头.jpg）

Glass AI对这个问题的回答，给出的诊疗方案是米诺地尔和非那雄胺。

深孚众望的 ChatGPT，也给出了5种用药：

（由于一些不可描述的原因，对第3种表示婉拒了哈）

第二个问题：如何检测2型糖尿病？

Visual Med-Alpaca给出了5种测试办法，包括空腹血糖测试、口服葡萄糖耐量测试等。

Glass AI给出的建议包含了此前的5种方案，然后额外有一种脂质谱。

ChatGPT给出的测试办法少了一种，但也举例了多种方法。

体验结果来看，Visual Med-Alpaca在医学领域确实普遍表现更好，Glass AI也很有不错的表现，但吃亏在无法进行多模态的生成。

Visual Med-Alpaca

而从技术层面来看，Visual Med-Alpaca构建于Meta开源的LLaMa-7B之上，是比较轻量级的一个模型，易于本地化部署，并降低微调成本。

据团队成员解释，整个模型还参考了Visual-ChatGPT和Alpaca。也就是说， 整个模型及其架构层面没有太大创新。

基于这个问题，团队成员对量子位的回答是：

毕竟全天下basically Transformer，哈哈哈哈哈哈。

Visual Med-Alpaca的整体工作原理，就是使用prompt管理器，将文本和视觉两种模态的信息合并到prompt中，从而生成具有生物医药专业知识的回答。

为了让医学图像更适合输入，这一步涉及了集成视觉基础模型DEPLOT和Med-GIT。

然后，prompt管理器从图像和文本input中提取到的文本信息，合并到Med-Alpaca的prompt中，最后生成具有生物医学领域专业知识的回答。

训练过程中，为了更好地让生物医学知识和视觉模态在LLaMA-7B中结合，团队使用了 两个不同的数据集进行微调。

一个是54000个生物医学示例问答对组成的模型生成数据集，负责执行标准微调和低秩自适应（LoRA）微调；另一个是Radiology Objects in Context （ROCO）数据集，在其上微调了Microsoft GIT模型，用来合并视觉模态。

这里还运用了 GPT-3.5-turbo的NLP能力，从各种医学数据集中收集、查询，最后综合生成更符合人类对话习惯的结构化答案。

在体验过程中不难发现，所有的回答最后，Visual Med-Alpaca都会附上一句叮嘱，大致内容是：

“鉴于风险因素的存在，可以结合你的个人健康史去看看医生哈～”

究其缘由，团队解释这是一个学术合作项目，而非商业化模型。

团队强调，为Visual Med-Alpaca评估划定能力边界非常重要。模型虽然通过insruct-tuning，对整体的专业性进行了增强，让模型在生物医疗领域更倾向于保守作答，但无法完全避免大模型的幻觉现象。

所以开源页中也加粗标出了“ Visual Med-Alpaca严格用于学术研究，在任何国家都没有合法批准将其用于医疗用途”。

2名剑桥老师+4名华人小哥

Visual Med-Alpaca项目背后，是两位剑桥老师和四名华人小哥。

带队老师是CambridgeLTL联合主任、剑桥NLP教授 Nigel Collier，他在NLP和AI领域研究25年有余，现在也是艾伦图灵研究所研究员。

共同一作 Chang Shu，CambridgeLTL博一在读，导师是Nigel Collier。此前，他在爱丁堡大学完成本硕学业。

目前的研究领域集中在LLM的安全性和可解释性方面。

共同一作 Baian Chen，本科毕业于MIT计算机系，从事AI方向的研究。他的目前身份是Ruiping Health创始人。

Fangyu Liu，CambridgeLTL博三在读，师从Nigel Collier。在进入剑桥大学攻读硕士学位之前，他在滑铁卢大学就读计算机科学本科。

Zihao Fu，CambridgeLTL助理研究员、博士后，同样是Nigel Collier的学生。在此之前，他博士毕业于香港中文大学，师从Wai Lam教授；本硕阶段则就读于北京航空航天大学。

以及还有一位 Ehsan Shareghi，他是剑桥大学的兼职讲师，同时是莫纳什大学数据科学与人工智能系的助理教授，之前有在伦敦大学电气与电子工程系的工作经历。

研究兴趣包括探究和增强预训练大模型。

GitHub：https://github.com/cambridgeltl/visual-med-alpaca/tree/main/code

参考链接：https://cambridgeltl.github.io/visual-med-alpaca/

— 联系作者—

— 完—

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发，谁将在此次算力产业变革中脱颖而出？

量子位《中国AIGC算力产业全景报告》和 《最值得关注的AIGC算力玩家》正式启动对外征集，期待有更多优秀的机构产品、案例与技术能够被大众看到。

点这里 👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

剑桥华人团队搞出多模态医学大模型！单个消费级显卡就能部署，借鉴斯坦福「羊驼」而来

推荐体验

相关资讯

弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源

24小时内、200美元复制RLHF过程，斯坦福开源「羊驼农场」模拟器

斯坦福开源FlashAttention，大模型速度翻倍

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用

2025年AI革命：斯坦福李飞飞教授揭秘多模态智能体的未来

近期资讯

掌握宽带路由器使用与设置技巧，提升网络体验与安全性

有效降低手机温度的技巧与散热原理解析，延长手机使用寿命的方法总结

便签的多种使用技巧与管理方法，助你提升生活和工作的效率

新手机使用指南：基本设置、功能探索与安全技巧全解析

轻松连接蓝牙音响：一步步指南享受高品质音乐

轻松连接手柄到电脑，提升你的游戏体验与乐趣

如何在微信中设置手势密码以增强账户安全性

调声卡技巧详解：提升音频质量的实用指南与步骤解析

全面解析摄像头的用途与设置技巧，提升拍摄与监控效果

现代宽带办理指南：轻松解决选择、安装与使用中的问题

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响