研究人员表示，美国医院中使用的人工智能转录工具发明了没有人说过的东西

作者：徵千落发布时间：2024-10-26

旧金山（美联社）— 科技巨头 OpenAI 吹捧其人工智能驱动的转录工具 Whisper 具有接近“人类水平的稳健性和准确性”。

但 Whisper 有一个重大缺陷：根据对十几位软件工程师、开发人员和学术研究人员的采访，它容易组成大块文本甚至整个句子。这些专家表示，一些虚构的文本——业内称为幻觉——可能包括种族评论、暴力言论，甚至想象中的医疗。

专家表示，这种捏造是有问题的，因为 Whisper 正被全球许多行业用于翻译和转录采访，在流行的消费技术中生成文本，并为视频创建字幕。

他们说，更令人担忧的是，尽管 OpenAI 警告说该工具不应用于“高风险领域”，但医疗中心急于利用基于 Whisper 的工具来转录患者与医生的咨询。

问题的全部严重程度很难辨别，但研究人员和工程师表示，他们在工作中经常遇到 Whisper 的幻觉。例如，密歇根大学（University of Michigan）的一名研究人员对公共会议进行研究时说，在他开始尝试改进模型之前，他检查了每10个音频转录中就有8个出现了幻觉。

一位机器学习工程师表示，在他分析的 100 多个小时的 Whisper 转录中，他最初发现了大约一半的幻觉。第三位开发人员表示，他在使用 Whisper 创建的 26,000 份转录本中几乎每一份都发现了幻觉。

即使在录制良好的短音频样本中，问题仍然存在。计算机科学家最近的一项研究在他们检查的 13,000 多个清晰的音频片段中发现了 187 次幻觉。

研究人员表示，这种趋势将导致数百万条录音中出现数以万计的错误转录。

直到去年，一直领导拜登政府白宫科技政策办公室的阿隆德拉·纳尔逊（Alondra Nelson）说，这样的错误可能会产生“非常严重的后果”，尤其是在医院环境中。

“没有人希望误诊，”新泽西州普林斯顿高等研究所（Institute for Advanced Study）的教授纳尔逊说。“应该有更高的标准。”

Whisper 还用于为聋人和听力障碍者创建隐藏式字幕，这些人群特别容易出现转录错误。这是因为聋人和听力障碍者无法识别“隐藏在所有其他文本中”的捏造，聋人、加劳德特大学技术访问项目负责人克里斯蒂安·沃格勒（Christian Vogler）说。

敦促 OpenAI 解决问题

这种幻觉的普遍存在导致专家、倡导者和前 OpenAI 员工呼吁联邦政府考虑 AI 法规。他们说，OpenAI 至少需要解决这个缺陷。

“如果公司愿意优先考虑它，这似乎是可以解决的，”旧金山的研究工程师威廉·桑德斯（William Saunders）说，他因担心公司的发展方向而于 2 月退出了 OpenAI。“如果你把它放在那里，人们对它能做什么过于自信，并将其集成到所有其他系统中，那就有问题了。”

OpenAI 的一位发言人表示，该公司一直在研究如何减少幻觉，并感谢研究人员的发现，并补充说 OpenAI 将反馈纳入模型更新中。

虽然大多数开发人员认为转录工具会拼写错误或出现其他错误，但工程师和研究人员表示，他们从未见过其他 AI 驱动的转录工具像 Whisper 一样产生幻觉。

耳语幻觉

该工具已集成到 OpenAI 旗舰聊天机器人 ChatGPT 的某些版本中，并且是 Oracle 和 Microsoft 云计算平台的内置产品，为全球数千家公司提供服务。它还用于将文本转录和翻译成多种语言。

仅在上个月，开源 AI 平台 HuggingFace 的最新版本 Whisper 的下载量就超过 420 万次。那里的机器学习工程师桑奇特·甘地（Sanchit Gandhi）表示，Whisper 是最受欢迎的开源语音识别模型，内置于从呼叫中心到语音助手的所有应用程序中。

康奈尔大学的 Allison Koenecke 教授和弗吉尼亚大学的 Mona Sloane 教授检查了他们从卡内基梅隆大学托管的研究存储库 TalkBank 获得的数千个短片段。他们确定近 40% 的幻觉是有害的或令人担忧的，因为说话者可能被误解或歪曲。

在他们发现的一个例子中，一位演讲者说，“他，那个男孩，我不确定，要拿伞。

但转录软件补充说：“他拿了一大块十字架，一小块......我敢肯定他没有恐怖刀，所以他杀了很多人。

另一段录音中的一名发言人描述了“另外两名女孩和一名女士”。Whisper 发明了额外的种族评论，并补充说“另外两个女孩和一位女士，嗯，她们是黑人。

在第三次转录中，Whisper 发明了一种不存在的药物，称为“超活性抗生素”。

研究人员不确定 Whisper 和类似工具产生幻觉的原因，但软件开发人员表示，这些捏造往往发生在停顿、背景声音或音乐播放期间。

OpenAI 在其在线披露中建议不要在 “决策环境中使用 Whisper，其中准确性的缺陷会导致结果的明显缺陷”。

转录医生预约

该警告并没有阻止医院或医疗中心使用语音转文本模型（包括 Whisper）来转录医生就诊期间所说的内容，从而让医疗服务提供者腾出时间来减少记笔记或撰写报告的时间。

超过 30,000 名临床医生和 40 个卫生系统，包括明尼苏达州的 Mankato 诊所和洛杉矶儿童医院，已经开始使用由 Nabla 构建的基于 Whisper 的工具，Nabla 在法国和美国设有办事处。

Nabla 的首席技术官 Martin Raison 说，该工具对医学语言进行了微调，以转录和总结患者的互动。

公司官员表示，他们知道 Whisper 可能会产生幻觉，并正在缓解这个问题。

Raison 说，无法将 Nabla 的 AI 生成的转录文本与原始录音进行比较，因为 Nabla 的工具出于“数据安全原因”会删除原始音频。

Nabla 说，该工具已被用于转录大约 700 万次医疗就诊。

前 OpenAI 工程师桑德斯（Saunders）表示，如果转录文本没有经过仔细检查，或者临床医生无法访问录音以验证它们是否正确，那么删除原始音频可能会令人担忧。

“如果你去掉基本事实，你就无法发现错误，”他说。

Nabla 说，没有一种模式是完美的，他们的模式目前要求医疗服务提供者快速编辑和批准转录的笔记，但这种情况可能会改变。

隐私问题

由于患者与医生的会议是保密的，因此很难知道 AI 生成的转录对他们有何影响。

加利福尼亚州立法者丽贝卡·鲍尔-卡汉（Rebecca Bauer-Kahan）表示，她今年早些时候带她的一个孩子去看医生，并拒绝签署健康网络提供的一份表格，该表格寻求她的许可，以便与供应商共享咨询音频，其中包括 OpenAI 最大投资者运营的云计算系统 Microsoft Azure。鲍尔-卡汉说，她不希望与科技公司分享如此亲密的医学对话。

“该版本非常明确地表明，营利性公司有权拥有这个，”在州议会中代表旧金山郊区部分地区的民主党人鲍尔-卡汉（Bauer-Kahan）说。“我当时想'绝对不是'。”

John Muir Health 发言人 Ben Drew 表示，卫生系统遵守州和联邦隐私法。

研究人员表示，美国医院中使用的人工智能转录工具发明了没有人说过的东西

推荐体验

相关资讯

研究人员推动开发面向非洲语言的人工智能工具

生成式人工智能：用户体验研究人员的完美同事

人工智能领域人才稀缺，很多企业没有人才可用！

微软人工智能研究人员泄露38TB私人数据

探索人工智能 | 智能推荐系统未来没有人比计算机更懂你

近期资讯

4199元起！OPPO年度影像旗舰FindX8系列发布，体验全面升级

第二届CATA航空大会开幕，观众可体验“开飞机”

adobe acrobat 2024直装即可用，附上过期解决办法

中国商飞：C929宽体客机正开展初步设计和供应商选择

当拼多多科技助农的风吹向全球

量子位「MEET 2025智能未来大会」启动！年度评选征集ing

国际协作 “共同作战” 中国科学院首个国际科学计划启动

华为公布自动驾驶避障专利：车辆避障策略更具类人性

宇凡微电子：一个华强北小商铺，为何能在7年间成为芯片细分龙头？

2024骁龙峰会：不仅有骁龙8至尊版，更是拉开了AI新时代的大幕

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响