导语:近日,研究人员发现ChatGPT可以通过部分美国医学执照考试,这引发了人们对人工智能聊天机器人是否有朝一日可以帮助编写考试或帮助学生准备考试的疑问。当ChatGPT可以为我们做同样的事情,而且它不受“人类”本能好恶驱使时,我们还需要医生吗?
总部位于旧金山的Open AI开发了一种大型语言模型ChatGPT。科技巨头微软认为ChatGPT和Open AI的其他应用程序非常有前途,微软已经投资了30亿美元,据报道称微软准备向该公司再投资100亿美元。ChatGPT于2022年11月向公众发布,是一款基于人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言进行对话,还能根据聊天上下文进行互动,真正像人类一样聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。该机器人利用数据存储,其中包括到2021年上传到互联网的所有内容。
ChatGPT的算法经过训练,可以根据前面出现的单词的上下文来预测给定单词序列的可能性。Tseng和他的合著者表示:“从理论上讲,ChatGPT虽然能够生成模型以前从未观察到的新单词序列,但代表了基于自然人类语言的合理序列”。
Ansible Health是一家主要管理慢性肺病患者的公司。Ansible Health的医学博士Victor Tseng和他的同事最初想看看ChatGPT是否可以汇总患者的所有病例信息,使Ansible能够更好地为病人协调护理。公司的志愿者决定通过用美国医师执照考试(United States Medical Licensing Examination,USMLE)的多项选择题来测试ChatGPT的能力,这批志愿者中有很多人已经通过了医学执照考试。
Tseng和同事在USMLE考试的三个步骤中涵盖了数百个多项选择题上测试了ChatGPT。对于每一步,研究人员都会以三种方式提示聊天机器人。首先,它被赋予了理论上患者的体征和症状,并要求它对可能是根本原因或诊断的问题发表评论。
接下来,在刷新ChatGPT以消除先前练习中任何保留信息的潜在偏差后,它会收到考试中的问题并要求选择答案。在再次刷新ChatGPT后,研究人员要求它“请解释为什么正确的答案是正确的,为什么错误的答案是错误的”。
答案由三位获得委员会认证的执业医师审查和评分。对于开放式格式,ChatGPT在step1中的通过率43%,68%。Step2的通过率为51%/58%,Step3的通过率为56%/62%。当逐字询问问题时,ChatGPT在step1中的准确率为36/55%,在Step2准确率为57%/59%,在Step3中准确率为55%/61%。当要求证明其回答的正确性时,step1为62%,Step2为49%/51%,Step3为60%/65%。
美国国家体检医师委员会(NBME)USMLE项目副总裁、医学博士Alex Mechaber表示,该组织对研究结果并不感到惊讶,部分原因是用于ChatGPT的输入材料在很大程度上代表了医学知识, 人工智能最有可能在多项选择题中取得成功。Mechaber指出,ChatGPT只给出了一些问题样本,而不是实际的练习测试。它没有尝试使用图像或声音的问题,也没有尝试在Step3中进行的基于案例的计算机模拟研究。
Mechaber谈到它作为一种研究工具的用途时说,ChatGPT可以用作准备USMLE的学生的学习助手或为考试准备题库的问题。至于ChatGPT是否可以编写测试题,NBME已经表现出对自动化项目生成的兴趣。
所以,我们还需要医生吗?ChatGPT虽然在生成类似人类文本的能力方面令人印象深刻,但它并不是专门为测试医学知识而设计的,也不能替代成为执业医师所需的严格培训和教育。此外,ChatGPT没有像人类医生那样批判性思考或解决问题的能力。除了上述的问题,ChatGPT可能还存在伦理道德方面的顾虑,由于人工智能模型基于可能存在偏见的机器学习,因此该模型生成的结果可能不准确且存在偏见。
责编|乔维钧
排版|文竞择
End
参考资料:
[1]https://interestingengineering.com/innovation/chatgpt-medical-licensing-exam
本文系生物探索原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源生物探索。