最近的一项研究发现,ChatGPT 技术在 88% 的时间内提供了适当的答案。照片由 CristinaMuraca/Shutterstock 拍摄
一项新的研究发现,ChatGPT 是每个人都在谈论的人工智能聊天机器人,它通常可以对有关乳腺癌的问题给出可靠的答案。但它还没有准备好取代你的医生。
研究人员表示,最大的警告是这些信息并不总是值得信赖,或者只提供了故事的一小部分。所以至少现在,他们说,把你的医疗问题交给你的人类医生。
ChatGPT 是一种由人工智能技术驱动的聊天机器人,它可以进行类似人类的对话——即时对人们可以提出的任何提示做出响应。这些响应是基于聊天机器人的“预训练”和大量数据,包括从互联网收集的信息。
根据投资银行瑞银 (UBS) 的一份报告,该技术于去年 11 月推出,并在两个月内拥有创纪录的每月 1 亿用户。
据报道,ChatGPT 在大学 SAT 考试中取得优异成绩,甚至通过了美国医学执照考试,也因此成为头条新闻。
尽管有人暗示聊天机器人可能是一名医生,但它是否能为用户提供可靠的医疗信息仍远未明朗。
最近发表在放射学杂志上的这项新研究测试了聊天机器人回答一些关于乳腺癌筛查和预防的“基本”问题的能力。
总体而言,它发现该技术在 88% 的时间内提供了适当的答案。这是否会击败谷歌搜索或你的医生,很难说。
但准确率“相当可观”,高级研究员、马里兰大学医学院诊断放射学和核医学助理教授 Paul Yi 博士说。
也就是说,Yi 还指出了 ChatGPT 目前的局限性。其一,他说,当主题是健康和医学时,即使是 10% 的错误率也可能是有害的。
除此之外,ChatGPT 的吸引力——它能够将一系列数据快速组合成“聊天”——也是它的缺点。Yi 说,它对复杂问题的回答范围有限。因此,即使它们在技术上是正确的,它们也可以给出倾斜的图片。
当 Yi 的团队向 ChatGPT 询问有关乳腺癌筛查的信息时,他们发现这是真的。该回应仅提供了美国癌症协会的建议——忽略了其他医疗团体的建议,这些团体在某些情况下有所不同。
Yi 说,普通的 ChatGPT 用户可能不知道如何提出后续问题,或者根本不知道如何检查回复是否准确。
Yi 说他认为 ChatGPT 的对话性质是该技术的一个优势,而不是老式的互联网搜索。
“缺点是,你无法真正验证信息是否准确,”他说。
当然,易建联指出,网上信息的准确性一直是个问题。ChatGPT 的不同之处在于它的呈现方式。Yi 说,这项技术的吸引力——那种对话的语气——也可以非常“令人信服”。
“对于任何新技术,”他说,“我认为人们应该对它持保留态度。”
在这项研究中,Yi 的团队收集了 25 个患者常问的关于乳腺癌预防和筛查的问题,然后将它们提交给 ChatGPT。每个问题被问了 3 次,以查看答案是否不同以及如何不同。
总体而言,聊天机器人对 22 个问题给出了适当的回答,对三个问题给出了不可靠的回答。对于一个问题——“我是否需要围绕我的 COVID 疫苗接种计划我的乳房 X 光检查?” -- 它提供了过时的信息。对于另外两个人,三项测试的答案不一致。
其中一个问题——“我如何预防乳腺癌?” - 广泛而复杂,互联网上流传着大量信息(真实的和非真实的)。
费城坦普尔大学福克斯商学院的统计学、运营和数据科学教授 Subodha Kumar 说,这很关键。
他说,问题越精确,回答就越可靠。当话题复杂、数据来源丰富且在某些情况下存在疑问时,回答的可信度就会降低,而且可能更有偏见。
Kumar 说,话题越复杂,ChatGPT 就越有可能“产生幻觉”。他指出,这是一个用来描述聊天机器人记录在案的“编造东西”倾向的术语。
没有参与这项新研究的 Kumar 强调,ChatGPT 给出的答案与过去和将来提供的信息一样好。“而且不能保证它只会得到准确的信息,”他说。
Kumar 指出,随着时间的推移,聊天机器人将收集更多数据,包括来自用户的数据——因此准确性可能会恶化而不是提高。
“当主题是医疗保健时,那可能很危险,”他说。
两位研究人员都表示,他们认为 ChatGPT 和类似技术前景广阔。例如,对于 Kumar 来说,聊天机器人可以成为希望快速获取有关某个主题的一些信息的医生的一个很好的“辅助设备”——但他们也有知识来正确地做出回应。
“对于普通消费者,”库马尔说,“我建议不要将其用于医疗保健信息。”