2月9日,在《PLOS数字健康》上的一项研究表明,由OpenAI创建的大型语言模型ChatGPT能够在美国医学执照考试(USMLE)中达到或接近60%的通过门槛。
这项研究由Tiffany Kung、Victor Tseng和他们在AnsibleHealth的团队进行,ChatGPT是一个新的人工智能系统,它通过根据其内部流程预测即将到来的单词来产生类似人类的写作,与大多数搜索互联网的聊天机器人不同。
研究人员发现ChatGPT的回答符合逻辑,具有内在意义,并经常提供有洞察力的信息。这些结果表明,ChatGPT有可能在医疗保健行业产生重大影响。
Kung和他的团队在USMLE考试中测试了ChatGPT的表现。USMLE是一个标准化和规范化的系列考试(步骤1、2CK和3),是在美国取得行医执照所需的考试。USMLE评估各个医学领域的知识,从生物化学到生物伦理学。
研究人员对2022年6月USMLE发布的376个公共问题中的350个问题进行了测试,在去除基于图像的问题后。ChatGPT在三次考试中的得分率从52.4%到75.0%不等,合格门槛约为60%。该软件的回答也显示出94.6%的一致性,并在88.9%的回答中提供了至少一个重要的见解。
相比之下,PubMedGPT,一个专门针对生物医学文献进行训练的模型,在一个较早的USMLE风格的问题数据集上得到了50.8%的分数。尽管输入规模较小,但作者认为他们的发现让人们看到了ChatGPT在改善医学教育以及最终改善临床实践方面的潜力。例如,AnsibleHealth公司的临床医生已经使用ChatGPT来简化充满专业术语的报告,以便于病人理解。
作者认为,ChatGPT在这一具有挑战性的专家考试中,在没有人类强化的情况下取得合格成绩,是临床人工智能发展的一个显著的里程碑。此外,Tiffany Kung博士指出,ChatGPT在研究中发挥了积极作用,为撰写手稿做出了贡献,并像同事一样与作者合作。