近期,ChatGPT因其高超的自然语言任务处理能力在各行各业爆火出圈。在编程、翻译、写论文等领域的应用,ChatGPT已经算是游刃有余。然而,在高壁垒的行业如医学领域中,ChatGPT却显得不够活跃。
过去十年,神经网络、深度学习和人工智能 (AI) 等技术的进步已经对制造业、服务业和金融业等诸多行业产生了深远影响,但它们在临床护理中的应用仍然有限。临床医学领域的卫生联网系统之间缺乏普遍的互操作性,导致深度学习算法开发所需的结构和机器可读数据匮乏。即便开发了适用于临床护理的算法,但由于技术、统计和概念的可重复性有限,许多算法无法跨环境推广,这些算法的质量也往往忽高忽低。
日前,哈佛医学院教授Tiffany H. Kung,亲自下场测试ChatGPT的表现。通过评估ChatGPT的大语言模型在美国医学执照考试(USMLE)中的表现发现,虽然没有经过任何专门的训练或强化,ChatGPT在三个专家级知识的标准化测试中已经能够达到或接近 60% 的准确度。该教授表示,ChatGPT辅助诊断的表现,已经接近医生。此外,ChatGPT 还表现出高度细致的洞察力。
另一教授Ateev Mehrotr也对ChatGPT进行了测试,结果显示,ChatGPT在45个案例中的39个诊断正确,正确率87%(超过了现有机器诊断率的51%);并为30个案例提供了适当的分诊建议。
研究表明,人工智能系统在改善医疗保健和健康结果方面大有可为,大型语言模型可能有助于医学教育,并可能有助于临床决策。ChatGPT等大型语言模型可能会在医学教育环境中帮助人类学习者,作为未来融入临床决策的前奏,在医疗保健中的应用潜力十分巨大。
前瞻经济学人APP资讯组
参考论文:
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198