研究：ChatGPT医学问答方面对执业医生获得了碾压性优势

作者：挣脱枷锁的囚徒发布时间：2023-04-29

ChatGPT

ChatGPT在健康问答中某些方面比医生更出色？

看到有媒体报道称，“ChatGPT在健康问答中某些方面比医生更出色”

将最新发表在JAMA Internal Medicine上一项比较ChatGPT与执业医生在有关健康问题回答的研究结果表述为“ChatGPT在健康问答中某些方面比医生更出色”，反映了人类厚颜无耻的迷之自信。

ChatGPT的全称叫Chat Generative Pre-trained Transformer，是一种基于人工智能技术经过预训练、具有生成功能的自然语言处理工具，也有人称之为通用人工智能聊天机器人。

可见，ChatGPT在人工智能领域仅仅是一个通用专家，并不是经过医学预训练的专门的“医生”；而且，ChatGPT才刚刚推出不久。

即便是这样，最新发表的研究的结果表明，ChatGPT在医学问题回答方面对执业医生也形成了全面的碾压性绝对优势，绝非仅仅在某些方面比医生更出色。

那么，将来经过充分医学训练的、专业的“人工智能医生”，与人类医生相比会是一种什么样的景象呢？

我们可以大胆，但合理地预期，全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个小脚指甲。

最新的研究怎么说？

美国加州大学圣地亚哥分校的研究人员从大型在线社交媒体问答网站Reddit有关医学问答的“AskDocs”子论坛上随机抽取了2022年10月期间195个由执业医生做出回答的医学问题，在2022年12月22日和23日提交给ChatGPT生成回答。

然后，由3名在儿科、老年医学、内科、肿瘤学、传染病和预防医学领域持有执业证的专家团队对最初的问题、医生的回答和ChatGPT的回答进行了审查、评分。

审查是专家成员在不知道哪些回答是由医生，哪些回答是由ChatGPT提供的情况下的盲评。

评估者被要求在做出评估之前阅读完整的提问和两个回答。然后，被要求给出“哪个回答更好”的答案；再然后评估者使用一个叫做李克特量表的专业工具对两个回答在“提供的信息质量(分为非常差、差、可接受、好或非常好)”和“提供的移情或对病人关心体贴度(分为不移情、轻微移情、中度移情、移情和非常移情)”评估。最后，评估结果被评定为1至5级，评分越高代表更高的回答质量或同理心。

结果：

ChatGPT的回答篇幅更长

患者的问题平均文字长度为180个字节；医生回答的平均文字长度仅有52个字节，显著短于ChatGPT的211个字节，反映ChatGPT的回答包含了更多的信息，考虑的更全面。

ChatGPT的回答质量显著优于医生

在专家团给出的585次评估中，78.6%的评估更喜欢ChatGPT的回答的回答。

评估者认为ChatGPT的回答质量明显高于医生，ChatGPT的回答总体上优于“好”，平均评分高达4.13；而医生的回答被整体评估为略优于“可接受”，平均评分为3.26；两相比较，医生的回答整体得分比ChatGPT低了21%。

医生的回答中有高达27.2%被评估为低于可接受的质量(得分

ChatGPT的回答质量被评为好或非常好的比例高达高于78.5%，对应的医生地这一比例仅有22.1；这相当于ChatGPT对医生形成了3.6倍的优势。

ChatGPT的回答更有同理心

ChatGPT的回答还认为更具有同理心，平均评分为3.65；而医生的平均评分仅有2.15。整体上医生的得分比ChatGPT低了41%，这相当于医生回答仅稍微有同理心，而ChatGPT的回答整体属于有同理心。

此外，医生的回答被评定为仅具有轻微同理心（

ChatGPT的回答被评为具有同理心或非常具有同理心的比例为45.1%，远远高于医生的4.6%；这相当于ChatGPT在同情心方面相对于医生取得了9.8倍的优势。

ChatGPT初出茅庐就随便碾压执业医生

透过以上的对比，显而易见，即使ChatGPT不过是初出茅庐的通用专家，在医学问答方面对经过多年医学教育和训练的医学博士（美国的临床医生都是博士）+多年临床实践经验积累的临床专家就可以轻而易举产生碾压性优势。

让我稍感意外的是，ChatGPT更大的优势居然是在同情心方面，而不是回答的医学专业性和质量方面。

这样看来，等到真正的经过充分训练的“专业人工智能医生”问世，对人类医生产生我前面预期的“全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个小脚指甲”的无以言表的优势，绝非妄言。

毕竟，老话说得好，“人力有时穷”。

在浩若烟海的医学知识方面，只要获得足够的硬件支持和充分的训练，“人力”相对于人工智能系统绝不仅仅是“有时穷”，是太穷了，就如同拿我在金钱方面的穷相比于世界首富马斯克财富的无穷大。

研究：ChatGPT医学问答方面对执业医生获得了碾压性优势

推荐体验

相关资讯

ChatGPT医学问答力压人类医生？JAMA发布研究报告

医疗大模型华佗GPT-2：医学问答超越GPT-4，通过2023年国家执业药师考试

GPT-4参加量子计算高难度期末考试，获得了B！｜Scott Aaronson

人工智能又取得大胜？ChatGPT的健康问答结果碾压人类医生

让 ChatGPT 考执医，成绩居然这么好：碾压 70% 医生！复旦最新研究

近期资讯

共青农场有限公司：开展测土配方施肥守护黑土大粮仓

联想Legion Go S掌机规格曝光搭载AMD锐龙Z2 Go

掌握气泡图制作技巧：数据可视化的实用指南

恒为科技：有智能巡检机器人、光伏清扫机器人等产品

AI赋能基层治理 “数智枫景”法治地图云平台上线

全球首发Chiplet 国产自驾芯片来了！北极雄芯启明935A成功点亮

英伟达中端显卡抢先看，RTX 5070 / Ti 规格曝光

宁夏可为申请通信用防信号干扰设备专利，提高该装置的使用寿命

年末暖心回馈，总有一款适合你！华为服务回馈礼遇推出多重温暖服务权益

2024年中国工程热物理学会工程热力学与能源利用学术会议在厦门举办

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响