当前位置:首页|资讯|ChatGPT|人工智能|生成式AI|教育

文献导读|ChatGPT等生成式人工智能在医学教育中的应用:潜在影响与前景机遇

作者:全国医学教育发展中心发布时间:2024-05-11

原标题:文献导读|ChatGPT等生成式人工智能在医学教育中的应用:潜在影响与前景机遇

文献导读

ChatGPT等生成式人工智能

在医学教育中的应用:潜在影响与前景机遇

分享前言

ChatGPT的问世开启了人工智能(Artificial Intelligence, AI)新纪元,对包括医疗保健和教育在内的许多行业产生重大影响。生成式AI(generative AI),如ChatGPT,指的是一种利用深度学习算法从大量数据中学习,并基于此自动生成新的文本、图像或音乐等内容的人工智能技术。ChatGPT凭借在线免费访问和易于使用的对话界面,发布两个月便迅速积累了超过1亿用户。在医学教育领域内,同样掀起了对ChatGPT的广泛热议,既有对可能引发的作弊和学术不端问题的担忧,也有对提升学习效率、创造研究新机遇的期待。

在2024年《Academic Medicine》这篇学术观点文章中,作者们通过综述既往文献为医学教育界同仁们提供了关于使用生成式AI的见解和建议,并提出了AI素养框架。作者们首先对生成式AI的含义进行界定,随后介绍了AI素养框架及构成该框架的关键能力。文章最后展望了生成式AI在招生、学习、评价和医学教育研究中的应用前景,以期能够帮助医学教育研究者和一线教师们积极拥抱这一新兴教育生态并做好未来规划。

文章前言

/

近期, 生成式人工智能技术,如ChatGPT、Bard、LLaMA、DALL-E Bing以及Stable Diffusion等火爆全网,在新闻传播和社交媒体界引发热议。大量讨论关注到了ChatGPT对教育系统的可能颠覆,包括在医学教育领域的应用,既激发了显而易见的兴奋,也引发了一定程度的担忧。ChatGPT的普及引起了教育工作者们的警觉,因为它将对教育评价产生一系列影响,并且可能引发一种新的作弊和抄袭机制。ChatGPT可以针对输入的提示语(prompt)生成回应,并准确给出多项选择题的答案。在《高等教育内部参考》最近的一篇社论中,Weissman作出这样形象的类比:“正如2020年的冬天因为新冠被铭记,2023年的冬天因ChatGPT而划时代,高等教育的历史将从此改写”。美国境内的一些大型学区,包括纽约市教育部门和洛杉矶联合学区等大型学区,都暂时封禁了对ChatGPT及OpenAI网站的访问,以便给教育工作者一些时间和空间去适应当前这种新的教学环境。在经历了初期对ChatGPT负面影响的担忧之后,现在教育学界普遍对其应用前景有一种谨慎乐观的态度,并逐渐接受了ChatGPT将成为常态的事实。

正当我们开启由技术突破带来的新时代之际,本篇学术性观点文章围绕 生成式AI在医学教育中的应用展开,对其内涵进行简要介绍,提出AI素养框架及关键能力,并就生成式AI为医学教育带来的潜在影响与机遇进行讨论,以优化ChatGPT等生成式AI在招生、学习、评估和医学教育研究中的系统运用,帮助医学教育者熟悉和掌控发展前沿,针对新的教育生态及早规划。尽管本文通过具体实例主要说明了生成式AI在招生、学习、评价和研究这四个方面的应用前景,但相关的思考和讨论应当能够推广至医学教育中的其他教育教学活动中去。

什么是ChatGPT,聊天机器人和生成式AI?

ChatGPT(聊天生成式预训练转换器)是一款由OpenAI公司开发并于2022年11月20日发布的网络聊天机器人。聊天机器人本质是基于AI的程序,通过学习文本或音频模仿人类对话,并以对话的形式对人类的输入提供自然语言反馈。尽管ChatGPT的本质——语言模型——至少从2018年起就已经开始出现并得到使用,但ChatGPT却利用已有的AI技术提供了一个更加易于访问且便捷的界面,由此在短时间内得到推广并举世瞩目。ChatGPT以及OpenAI公司推出的前几代GPT3/4的底层AI算法都是一种大语言模型(large language models, LLM),能够学习文本数据以及最近开始可以学习的图片数据中的规律生成文字反馈(GPT-4的训练数据截止到2023年3月14日)。这些训练数据中的规律在LLM的底层深度学习神经网络中得到编码,深度学习神经网络实质上是模仿人脑皮层的多层人工神经元电子模型集合。训练的作用是微调人工神经元之间的交互作用,提升其效果,这些交互作用被存储为数值,也称为参数。生成式人工智能AI则对这类根据训练参数生成新内容(如文本、图像或音乐)的模型(如 LLM)的统称术语。这些模型可以根据用户的反馈对回答进行调整,但一般不会自我更新或将之前的对话记录为长期记忆。生成式 Al(如 ChatGPT)的训练数据源包括互联网信息、已出版的图书和论文、图像等各类知识,能够根据用户指令生成多种会话或学术风格的回答,包括期刊论文、学术报告和其他各种形式(如诗歌、博客、编程语言和脚本等)。ChatGPT是可以免费使用的,其发布后短短几个月内就突破了1亿用户的规模。截止本文见刊之时,其他市场上可获得的LLM包括谷歌的BERT(首批LLM之一)和PaLM2(用于Bard聊天机器人),以及 Facebook 的LLaMA(可在本地计算机上创建聊天机器人,无需联网)。

为了进行示范,本文在此呈现ChatGPT对 “ChatGPT可能对医学教育带来哪些增益与挑战”这一提问的回复。

将ChatGPT应用于医学教育可能带来的益处包括:它能提供个性化互动性强的学习体验,模拟真实世界环境和患者互动场景。此外,ChatGPT 还能帮助学生练习和提高他们的沟通技能,这在帮助他们今后提供高效医疗服务方面起到非常重要的作用。

将ChatGPT应用于医学教育可能带来的挑战包括:其现有知识库的局限性,可能跟不上最新的医学研究和最佳实践。此外,ChatGPT无法提供实际操作经验或体格检查经验,而这些都是医学教育的重要内容。最后,学生有可能过于依赖 ChatGPT,其批判性思维能力无法得到培养,而这恰恰是做出准确诊断和治疗决定所需具备的技能。

上述这段由ChatGPT生成的文字可以被视为对提示指令的一个合理和看似有道理的回复。但 回复的准确性、可信度和充分性最终需要依赖人类的判断进行评估。正如回答中所承认的那样,ChatGPT一个显而易见的缺陷没能与最前沿的医疗知识和医学实践保持同步更新,因此准确性无法得到保证。教育工作者还需要意识到,ChatGPT的一些其他重大局限性包括其数据来源和预训练数据可能存在的偏差,从而导致生成不准确或不充分的回复。所生成信息的准确性和有效性取决于模型预训练数据的准确性。不过虽然存在上述局限性,但经过深入细致的规划之后,生成式AI依旧可以成为医学教育的潜在有用资源。因此,教育工作者探索ChatGPT在教育场景中的创新价值时,亦须慎重考量其局限性和可能带来的风险,采取策略以最小化负面效应和最大化效益。本文立足于AI素养框架与教育工作者的AI核心能力,深化了生成式AI对医学教育影响的洞察,为教育工作者提供了切实可行的步骤。

AI素养框架和AI核心胜任力

在数字素养概念的延伸之上,近年来AI素养已成为多个学科和行业内不可或缺的关键技能。从医学教育的视角来看,AI素养由以下3个方面构成: (1)理解AI(包括那些用于提升医疗服务水平的工具)所具备的能力;(2)将AI工具融入教学中;以及(3)确保以包容、公平和符合伦理规范的方式使用AI,增进民生福祉。Gong等人在中国进行的一项研究发现,尽管AI已成为核心课程的一部分,但大多数学生仍然缺乏对基本AI伦理的理解,以及对AI相关的知识产权的考虑,凸显出当前课程体系在涉及AI伦理方面明显不足的问题。Russell等的文章也强调,清楚认识到AI类临床诊疗工具的社会影响和伦理问题是医卫行业专业人员必备的两项核心能力。其他四项核心能力分别是AI基础知识、基于AI工具的工作流程分析、AI增强的临床接触,以及对AI类工具的循证评估。这些能力及其支持将AI整合入医学教育课程的相关文献,强调了掌握AI基础知识和识别数据安全及准确性风险的重要性。能够评估AI的适当使用已成为医疗保健专业人员的一项新的核心能力。上文提及的AI胜任力以及将AI与医学教育课程结合的支持性文献都特别关注到掌握AI基础知识和审慎判别信息安全性和准确性的重要性。而评估Al是否得到恰当的使用则是医卫人员需要掌握的一项新核心能力。

借鉴这些AI素养和AI核心胜任力框架,本文首先简要介绍了AI的功能及其对医学教育的直接影响,包括可能带来的伦理问题。随后,文章探讨了生成式AI为医学教育四大关键领域带来的机遇,这四个领域亦是医学教育的核心阶段: (1)学生选拔;(2)学习;(3)评价;(4)研究。在这4个预期会最直接受到影响的领域中,文章分别选取具体的活动作为示例来说明AI何以能在整个医学教育中产生泛远而多元的影响。

学生选拔

目的

在院校教育阶段和毕业后教育阶段培训项目的学生选拔过程中,个人陈述作为一种文书类申请材料被广泛使用,尽管其在预测学生未来表现方面的有效性一直存在争议。招生和选拔委员会可以通过学生撰写的个人陈述或针对一些开放性问题的回答来判断该学生的写作能力和分析思考能力是否能支持其完成学业,并从这些文书材料中发现每位申请者的一些过人之处。

潜在影响

ChatGPT 发布后不久,就有文章报道称ChatGPT能够在大约 20 分钟的时间内根据2个不同的文书撰写指令生成2篇以假乱真的大学申请论文。对这篇文章的回应指出,ChatGPT生成的论文有明显的局限性,即“不人性化”、“标准但僵硬”和“缺乏灵魂”。不同于考试中需要作答的学术风格论文题,用于入学申请的个人陈述使用另一套相对灵活自由的语言风格,因此需要更加具有表现力的文字。不过,随着当前模型的不断更新迭代和被“投喂”更多的数据加以训练,可以想见生成式AI将得到快速发展,这样用户就能不断精炼AI提供的回答,最终得到他们各自想要的叙事风格,与此同时AI的作答风格和人类的差异可能也会变得更加难以察觉。

前景机遇

未来,生成式Al工具可以为论文写作和基于提示语的书面回答提供一份通用模板,像编辑一样协助进行语法检查,并帮助整理思路。对于经验较少或需要一些指导的学习者来说,可以使用ChatGPT或类似的写作工具(如Jasper)来创建最初的提纲和草稿。这样一来,生成式AI就有可能为不同写作水平和语言能力的学生提供一个相对公平的竞争环境,并为他们提供辅导等帮助。尽管由ChatGPT生成的个人陈述真实性有待商榷,但其本身作为一种工具提供免费编辑服务的能力毋庸置疑。鉴于生成式AI展现出的这种强大辅助能力,招生委员会不得不在确立入学申请论文的主题时深思熟虑,给出旨意深远的写作大纲以尽可能地挖掘个性化回答,将由过度依赖AI辅助带来的负面影响最小化。以个人叙事类文章为例,写作要求可能会这样写:“描述你所经历过的一项重大个人挑战或一段独特经历,使你为进入医学院校做好准备”。这样的写作要求会更多地考查学生的创造性思维,而不仅仅是ChatGPT拥有的信息概括能力。

学习

目的

医学生在实习期间和实习阶段结束后都要进行自主学习,以准备执业医师资格考试或申请其他学习机会,这也是培养医学生终身学习技能和自我调节学习能力的必经之路。大多数学生都会借助多种资源进行自主学习,包括教科书、重要的文献、题库、专科资格考试复习课程和备考资料、课程笔记以及在线病历资料等。当今的临床医学实践依赖于随时可以获取此类信息资料的技术,因此对医生的培训不再那么强调记忆知识,而是更加注重培养医生对信息的获取、审验、集成以及批判性评价能力。

潜在影响

我们一直在思索 ChatGPT(以及其他生成式AI)是否确实和另外一些用于提高课堂和临床学习效果的信息技术有所不同。在用户的提示指令下,ChatGPT 可以提供一般性的参考资料,将用户引向教科书和在线资源,如 MedlinePlus 和 Up ToDate。不过,ChatGPT仍然无法提供用于生成回复的参考资料的具体细节。

在医学教育(或者说整个医学领域)中,信息的有效性对于提供患者照护来说意义非同小可。这种效度主要取决于能否追溯证据的来源以及相关的情境,因为这涉及证据是否具有可推广性。ChatGPT 无法提供其生成回复时所参考的资料,从而ChatGPT作为一种学习工具的可用性受到了严重限制。尽管微软必应公司发布的自然语言处理聊天机器人可以在回答临床问题时给出其参考的资料来源,但是它(包括ChatGPT)有时会一本正经地胡说八道,将错误信息说成事实。这种局限性不足为奇,因为语言预测类AI技术的底层算法模型是概率模型,换言之AI提供的回答是从最可能正确的答案中选择的,并不能保证一定准确。因此,目前这些工具还是不能成为循证医学可以依靠的可信赖学习工具(Google的聊天机器人Bard最初甚至极力避免提供有关医学的回答)。

前景机遇

尽管这些工具提供的回答可能不是非常准确,但它们在学习者的眼里仍然充满诱惑力,因为它们可以针对特定的询问作答,还能从海量信息库中合成可用的信息。教育者应该料到,学习者会将生成式AI工具当作快速参考和整合信息的工具。我们认为这恰恰使教育者们需要继续强调对获取的信息进行批判性评价的重要性,无论是来自聊天机器人还是来自其他渠道的信息都需要审慎对待。毕竟聊天机器人提供的信息存在错误风险,而且由于不提供信息的上下文而导致信息可推广性和适用性尚无保障是切实存在的,因此就像对待其他网上来源的信息一样需要对其有效性进行独立验证。学习者要重视培养自己追溯证据来源的能力,无论是聊天机器人的论断还是人类专家提供的观点及总结,都需要仔细审查和评估。

生成式AI工具的不断改进同样也可以帮助学习者评估作答的有效性和适用性。初代生成式AI似乎更注重使回答模仿人类的语气,但为了提高可信度,下一代生成式AI需要注意以下三个方面:(1)引用用于生成特定回答的资料来源(如用于生成鉴别诊断的参考文献);(2)提供回答的背景信息(如关于鉴别诊断适用人群的信息);(3)公开所有给出的回答的准确程度(如提供一个百分比来表示AI算法确定陈述为事实的概率)。在使用生成式AI的过程中,学习者不仅批判性评价能力和提问能力得到了锻炼,还能在其帮助下发现已有文献或知识中可能存在的不足。考虑到今后学员和执业医师将越来越多地使用AI辅助对真实世界的患者进行会诊和提供鉴别诊断,医学教育者们制定关于批判性评价和提问技巧的教学计划任务变得越来越迫切。

评价

目的

Epstein指出,医学教育评价旨在实现三个主要目的:(1)激发学习热情并指引未来学习方向(反馈);(2)确保医生具备必要的职业能力(社会责任);(3)作为个人进步或晋升的基础(基于胜任力的医学教育)。同样,课程评价也服务于两个主要目的:(1)通过反馈推动学习,(2)判断学习者是否准备好进一步的学习。接下来,我们将探讨生成式AI对这些评价目标带来的潜在影响,无论是破坏性的还是促进性的。

潜在影响

最近的一些新闻头条和学术论文均显示,生成式AI将对那些高利害性知识的评价格局带来变革。ChatGPT使用海量在线数据进行训练,从而具备生成论文和回答开放式问题的能力。ChatGPT能通过高利害性质的研究生测试、提供与人类学习者别无二致的叙述内容,这些新闻一经发布便迅速引起了教育者们的警觉。就医学教育来看,ChatGPT在美国执业医师资格考试的三个部分中都能够达到或接近及格门槛。这些发现理所当然地引起了人们对作弊行为的担忧,并给学术机构检测失信行为带来了挑战。在评价学习者是否具备进入下一阶段学习的资质时,学术诚信问题显得尤为重要。尽管诚信考试是教育领域老生常谈的问题,而ChatGPT等生成式AI工具又进一步扩大了对相关问题的担忧。譬如在线考试环境中,作弊本就是长期以来未得到妥善解决的疴疾,ChatGPT又为在线考试舞弊提供了一种新的信息获取途径。考生在参加开卷考试期间,若使用的是未锁定或未经仔细检查的计算机,那么考生就可以访问 ChatGPT 并让ChatGPT草拟题目答案。在开放性试题考试中,ChatGPT 会根据提示生成文本,这些文本可能与学生作出的回答无异,也难以被抄袭检测程序发现。这样下去,教育工作者便无法辨别学生作业的真实性,亦无从得知学生对所学知识的理解程度。鉴别ChatGPT等AI生成语言的方法可能会出现,但目前还没有得到常态化使用。针对上述问题,教育工作者通常制定一些策略来预防学生在考试期间利用ChatGPT 获取信息。为了适应快速发展的人工智能环境,一些已实施的措施可能需要进行更新。在考试期间锁定计算机,可以有效防止抄袭、访问在线资源以及使用生成式AI工具等不当行为。加强计算机的数据传递监考协议能进一步限制学生在考试期间获取资源,尽量避免使用开卷考试的形式同样也能减少学生使用信息辅助工具的可能性。最后,关于考试安全与防范作弊的政策、荣誉守则及学生指南应明确界定允许和禁止使用人工智能的情形,做到公开透明。

前景机遇

在ChatGPT带来的巨大冲击下,教育工作者们不能循往以御变,而是创新评价方式引导学习者减少对生成式AI的全盘依赖。例如,小组项目、以多媒体形式呈现成果、讲演和口试等都是适用于许多场景的新型评价技术。另一种策略是在学习和评估过程中使用AI生成工具。例如,为了吸引和评估学生的批判性评价技能,教育者可以邀请学生使用AI生成答案,或审查AI生成的材料,对其进行批判或修改。另一种方式是反守为攻,主动将生成式AI工具融入学习和评价的过程中,譬如要求学生利用AI作答、对AI生成的信息进行评论或修改等,以实现测量和评价学生批判性思维的能力。

生成式AI的形成性使用可以指导学习。例如,通过对测评数据的文本分析,AI可以帮助识别学习者的误区或知识缺漏。AI生成的评价工具具有自适应性;它们能够根据学习者对提示语的反应,以类似于人类导师的方式提供个性化的、及时且持续的反馈,可汗学院正在测试的新型工具Khamingo正是源于这一想法。对于形成性评价(formative assessment)而言,及时和频繁的反馈非常重要,生成式AI恰好可以帮助教师节省时间提高效率向学习者分享更多的高质量深层次反馈。

在以评定学生学习成果并做出教学决策(晋级、毕业或特定学术认证)为目标的总结性评价(summative assessment)中,AI可以帮助评分对分数进行解释。对于使用评分标准进行评分的书面回答(如开放性的结构化回答),生成式AI可以自动完成部分评分工作,并利用智能化表达给出叙述性的反馈建议,从而减轻评阅人员的工作负担。尽管与人类评分者相比,ChatGPT自动评分的可靠性尚待提高,但通过训练强化和改进语义微差检测算法,生成式AI有望使书面回答的评分过程变得更为高效。AI工具可以协助对学习者书写的病历记录进行评分,同时教师也要注意对患者隐私的保护。

AI工具可以展现学习路径识别成长模式标记那些未达到能力门槛的学习者,这些功能使得从评价中得到的推论更具连续性,而非阶段性的(仅在学习周期结束时)。当教育工作者或委员会汇总学习者表现的相关数据时,Al 可以生成一些总结性的结论。例如,一个生成式AI工具可以根据某些标准(如临床见习胜任力)或将住院医师的表现与专科里程碑进行比较,基于导师的描述叙述或其他渠道的数据草拟学生评价的总结性段落供评估医学生成绩所用。不过这些总结需要经过人工审核以确保它们准确地反映了原始评价数据。需要注意的是,在开放性AI平台上进行此类操作违反了《家庭教育权利和隐私法案》,因为该法案保护学生个人数据的隐私权,所以在生成式AI工具中使用评价数据时必须遵守当地的相关政策和法律。

研究

目的

医学教育研究的主要目的是在我们这个学术领域内推动科学进步和证据积累。撰写研究性书稿需遵循公认的科学研究惯例和方法,包括对文献的批判性评阅、准确呈现数据以及恰当引用和参考源信息。随着研究人员开始在研究过程的各个阶段使用 ChatGPT,坚守这些既定的科学规范就显得尤为重要。

潜在影响

目前已经有了一些围绕如何利用ChatGPT来拟定研究论文提纲的建议。ChatGPT能够帮助查找和整理可能与研究主题相关的文献,加快文献综述的流程,并协助润色文本。同时,一些将生成式人工智能纳入作者名单的出版物和预印本激发了期刊编辑和研究者们对于是否应将ChatGPT作为出版物作者的适当性进行讨论。最近,生成式AI在几篇已发表的论文和预印本上正式获得了作者署名,这一现象立刻激起了期刊编辑、研究者和出版商们针对ChatGPT作为作者引用是否合适的讨论。包括Nature和Science在内的一些期刊编辑团队明令禁止将AI列为共同作者,因为ChatGPT等AI工具不符合当前研究作者的标准,无法对科学论文的内容和完整性负责,它也不具有同意使用条款和发布内容的权利。如前所述,在研究中依赖 ChatGPT 等工具的潜在隐患是缺乏明确的参考文献和信息来源引文。虽然在提示语的要求下ChatGPT可以提供一些参考信息的来源,但目前该工具的迭代版本仍使得验证信息的可靠性以及追踪生成内容的具体信息来源难以实现,这无疑限制了将ChatGPT作为文献检索工具的可用性。

前景机遇

是否可以列为合著者姑置不论,生成式AI确实能在研究过程中发挥重要作用,包括开启正式的写作流程、构思初步的研究问题、确认当前知识体系中有待填补的空白等。不过科研人员仍需对自己所撰写的研究报告负责,确保信息公开透明和准确可靠,并提供恰当的引用和参考文献。预计今后生成式AI的性能将越来越强大,在学术领域中的应用不可避免,那么提倡作者们明确说明生成式AI在研究过程中的使用情况就变得非常重要。JAMA Network最近更新了作者投稿指南,指出“如在论文创作中用过AI相关工具,作者应在‘方法’或‘致谢’或适当的部分明确说明”。另一个AI工具极具应用前景的部分是文献综述,在其辅助下研究人员能够接触到传统数据库之外的更广泛文献资源,为其研究领域引入先前未被充分利用或忽略的新视角和新想法。

结论

/ DISCUSSION

生成式AI有望成为教育工作者、学习者和研究机构的学习和科研利器,但在医学教育中引入AI工具还需要谨慎考量AI生成内容的准确性、潜在的价值偏见以及使用该类工具带来的科学规范和学术诚信等方面的问题。表1列出了一系列针对教育工作者和院校机构如何提升AI素养并合理利用ChatGPT等生成式AI的建议及可参考的资料来源。随着生成式AI技术的快速进步和持续更新,医学教育会发生更多本文未谈及的颠覆性改变。对此,身为教育工作者需要不断提高自身的AI技能和素养,警惕不被技术消解。此外,教育工作者还需要有意识地成为AI素养的推广者,培养学生关于应用AI的社会责任感和伦理观。

表1:为保持准确性和专业术语的完整性,本表格采用其原始的英文呈现为佳,故此处未进行翻译。)

个人思考

/

新一波智能技术的潮流滚滚而来,对此医学教育者们应摆正心态,既不能忽视AI给教学和教育研究带来的巨大机遇,也不能在教学和研究过程中无度使用AI,需保持开放但谨慎的态度,并紧密结合医学教育的特殊学科属性,做到对研究负责,对未来医学教育的发展负责,最大程度释放AI技术的正向潜能。

文献来源

/

Boscardin C K, Gin B, Golde P B, et al. ChatGPT and generative artificial intelligence for medical education: potential impact and opportunity[J]. Academic Medicine, 2024, 99(1): 22-27.

DOI: 10.1097/ACM.0000000000005439

导读:仲彧欣

审核:吴红斌

特别声明

本微信公众号对所有原创、转载、分享的内容、陈述、观点判断均保持中立,推送文章仅仅是出于传播信息的需要。若有来源标注错误或侵犯了您的合法权益,请原创作者持权属证明与我们联系,我们将及时更正、删除。谢谢!

相关链接

点击此处查看往期文献推荐与文献导读


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1