ChatGPT在健康问答中某些方面比医生更出色?
看到有媒体报道称,“ChatGPT在健康问答中某些方面比医生更出色”
将最新发表在JAMA Internal Medicine上一项比较ChatGPT与执业医生在有关健康问题回答的研究结果表述为“ChatGPT在健康问答中某些方面比医生更出色”,反映了人类厚颜无耻的迷之自信。
ChatGPT的全称叫Chat Generative Pre-trained Transformer,是一种基于人工智能技术经过预训练、具有生成功能的自然语言处理工具,也有人称之为通用人工智能聊天机器人。
可见,ChatGPT在人工智能领域仅仅是一个通用专家,并不是经过医学预训练的专门的“医生”;而且,ChatGPT才刚刚推出不久。
即便是这样,最新发表的研究的结果表明,ChatGPT在医学问题回答方面对执业医生也形成了全面的碾压性绝对优势,绝非仅仅在某些方面比医生更出色。
那么,将来经过充分医学训练的、专业的“人工智能医生”,与人类医生相比会是一种什么样的景象呢?
我们可以大胆,但合理地预期,全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个小脚指甲。
最新的研究怎么说?
美国加州大学圣地亚哥分校的研究人员从大型在线社交媒体问答网站Reddit有关医学问答的“AskDocs”子论坛上随机抽取了2022年10月期间195个由执业医生做出回答的医学问题,在2022年12月22日和23日提交给ChatGPT生成回答。
然后,由3名在儿科、老年医学、内科、肿瘤学、传染病和预防医学领域持有执业证的专家团队对最初的问题、医生的回答和ChatGPT的回答进行了审查、评分。
审查是专家成员在不知道哪些回答是由医生,哪些回答是由ChatGPT提供的情况下的盲评。
评估者被要求在做出评估之前阅读完整的提问和两个回答。然后,被要求给出“哪个回答更好”的答案;再然后评估者使用一个叫做李克特量表的专业工具对两个回答在“提供的信息质量(分为非常差、差、可接受、好或非常好)”和“提供的移情或对病人关心体贴度(分为不移情、轻微移情、中度移情、移情和非常移情)”评估。最后,评估结果被评定为1至5级,评分越高代表更高的回答质量或同理心。
结果:
ChatGPT的回答篇幅更长
患者的问题平均文字长度为180个字节;医生回答的平均文字长度仅有52个字节,显著短于ChatGPT的211个字节,反映ChatGPT的回答包含了更多的信息,考虑的更全面。
ChatGPT的回答质量显著优于医生
在专家团给出的585次评估中,78.6%的评估更喜欢ChatGPT的回答的回答。
评估者认为ChatGPT的回答质量明显高于医生,ChatGPT的回答总体上优于“好”,平均评分高达4.13;而医生的回答被整体评估为略优于“可接受”,平均评分为3.26;两相比较,医生的回答整体得分比ChatGPT低了21%。
医生的回答中有高达27.2%被评估为低于可接受的质量(得分
>
ChatGPT的回答质量被评为好或非常好的比例高达高于78.5%,对应的医生地这一比例仅有22.1;这相当于ChatGPT对医生形成了3.6倍的优势。
ChatGPT的回答更有同理心
ChatGPT的回答还认为更具有同理心,平均评分为3.65;而医生的平均评分仅有2.15。整体上医生的得分比ChatGPT低了41%,这相当于医生回答仅稍微有同理心,而ChatGPT的回答整体属于有同理心。
此外,医生的回答被评定为仅具有轻微同理心(
>
ChatGPT的回答被评为具有同理心或非常具有同理心的比例为45.1%,远远高于医生的4.6%;这相当于ChatGPT在同情心方面相对于医生取得了9.8倍的优势。
ChatGPT初出茅庐就随便碾压执业医生
透过以上的对比,显而易见,即使ChatGPT不过是初出茅庐的通用专家,在医学问答方面对经过多年医学教育和训练的医学博士(美国的临床医生都是博士)+多年临床实践经验积累的临床专家就可以轻而易举产生碾压性优势。
让我稍感意外的是,ChatGPT更大的优势居然是在同情心方面,而不是回答的医学专业性和质量方面。
这样看来,等到真正的经过充分训练的“专业人工智能医生”问世,对人类医生产生我前面预期的“全世界所有医生绑在一起也不及经过充分医学训练的“人工智能医生”的一个小脚指甲”的无以言表的优势,绝非妄言。
毕竟,老话说得好,“人力有时穷”。
在浩若烟海的医学知识方面,只要获得足够的硬件支持和充分的训练,“人力”相对于人工智能系统绝不仅仅是“有时穷”,是太穷了,就如同拿我在金钱方面的穷相比于世界首富马斯克财富的无穷大。