当前位置：首页|资讯|OpenAI|ChatGPT|Whisper

OpenAI首次推出用于语音转文本的Whisper API

作者：绘画阿姊发布时间：2023-03-22

OpenAI ChatGPT Whisper

转载说明：原创不易，未经授权，谢绝任何形式的转载

为了配合ChatGPT API的推出，OpenAI今天推出了Whisper API，这是公司在去年3月发布的开源Whisper语音转文本模型的版本。

Whisper是一种自动语音识别系统，售价为每分钟0.006美元。OpenAI声称它能够在多种语言中实现“强大的”转录，以及从这些语言翻译成英语。它可以处理多种格式的文件，包括M4A、MP3、MP4、MPEG、MPGA、WAV和WEBM。

许多机构都开发了高效的语音识别系统，这些系统是Google、Amazon和Meta等科技巨头软件和服务的核心。但是，Whisper的不同之处在于它使用OpenAI总裁兼领导Greg Brockman所说的从网络上收集的680,000小时的多语言和多任务数据进行训练，从而改进了对独特口音、背景噪音和技术术语的识别。

布罗克曼在昨天下午与TechCrunch进行的视频通话中表示：“我们发布了一个模型，但这并不足以引起整个开发生态系统的建立。Whisper API与开源的同一大型模型相同，但我们已经进行了极致的优化。它速度更快，非常方便。”

正如布罗克曼所说，企业采用语音转录技术时会遇到很多障碍。根据2023年Statista的一项调查，公司提到的原因包括准确性、口音或方言识别问题和成本，这些都是他们没有采用语音转文本技术的主要原因。

然而，Whisper也有其局限性，尤其是在“下一个单词”预测方面。由于该系统训练时使用了大量嘈杂的数据，OpenAI提醒说Whisper可能会在转录中包含未实际说出的单词，可能是因为它同时在尝试预测音频中的下一个单词和转录音频本身。此外，Whisper在不同语言间表现并不相同，在那些训练数据中未充分的个别语种，错误率较高。

遗憾的是，语音识别领域的这一问题并不新鲜。就连最好的系统也一直受到偏见的困扰。2023年，斯坦福大学的一项研究发现，亚马逊、果子、谷歌、IBM和微软的系统在处理白人用户的语音时，出错率要比处理国外用户的高出约19%。

尽管如此，OpenAI认为Whisper的转录能力可以用于改善现有的应用程序、服务、产品和工具。目前，使用人工智能技术的语言学习应用程序Speak正在使用Whisper API来支持新的应用程序虚拟语音助手。

延伸阅读：什么是Speak？

Speak是一款基于人工智能的语言学习应用，它利用自然语言处理和语音识别技术帮助用户学习新语言。这个应用可以让用户练习口语、听力、阅读和写作等语言技能，并提供了一系列交互式练习，例如对话模拟、单词学习、语法练习等。最近，Speak开始使用Whisper API来支持它的新功能——虚拟说话伴侣。

如果OpenAI能够大规模进入语音转文字市场，这对于微软支持的公司来说可能非常有利可图。根据一份报告，该细分市场到2026年可能达到54亿美元，而2023年的市场规模为22亿美元。

“我们的愿景是成为普遍智能，”Brockman说。“我们真的想要非常灵活地接收任何您拥有的数据——任何您想要完成的任务——并成为那种注意力的力量倍增器。”

延伸阅读：如何理解注意力的力量倍增器？

当OpenAI的技术应用到各种不同的数据和任务上时，它可以像一个“力量倍增器”一样，让用户的工作效率和成果得到更大的提升。也就是说，OpenAI希望成为一种能够帮助人们更好地利用注意力的工具。

今天的分享就到这里，希望对你有所帮助，感谢你的阅读，

小哥创作不易，如果你喜欢我的分享，别忘了点赞转发，让更多有需要的人看到，最后别忘记关注「前端达人」，你的支持将是我分享最大的动力，后续我会持续输出更多内容，敬请期待。

作者：Kyle Wiggers

发布时间：3 月 2 日 02:00

非直接翻译，有自行改编和添加部分，翻译水平有限，难免有疏漏，欢迎指正

推荐体验

相关资讯

使用 OpenAI Whisper 模型实现语音转文本

1. 引言语音转文本（STT）技术通过将语音信号转换为文本，使得机器可以理解和处理自然语言。这种技术广泛应用于智能助手、语音搜索、字幕生成等领域。OpenAI 提供了基于 Whisper 模型的语音转文本 API，支持多种音频格式和语言的转录与翻译。 2. Whisper 模型简介 Whisper 是 OpenAI 开发的一个开源语音转文本模型。large-v2 Whisper 模型是其中最先进的版本，具备出色的转录和翻译能力。通过 OpenAI 提供的 API，我们可以方便地将音频文件转换为文本。 3

我们去浪浪山 2024-07-21

OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

OpenAI Whisper实时语音识别:实现近乎实时的语音转文本近年来,随着人工智能技术的飞速发展,语音识别领域也取得了突破性进展。OpenAI推出的Whisper模型就是其中的佼佼者,凭借其强大

OpenAI Whisper 人工智能

用户391315911403 2024-09-02

初探之基于 openai/whisper 模型实现语音转文本

大家好，欢迎来到前端研习圈。前言本期的主题是通过 OpenAi 的语言识别模型 whisper 来实践一个语音转文本的功能。

木木剑光 2024-02-27

Whisper、React 和 Node 构建语音转文本 Web 应用程序

在本文中，我们将使用 OpenAI 的 Whisper 以及 React、Node.js 和 FFmpeg 构建一个语音转文本应用程序。该应用程序将获取用户输入，使用 OpenAI 的 Whisper

嚣张农民 2023-07-10

语音转文字的whisper应用部署

# 前言要解决问题: 需要一款开源的语音转文字应用, 用于视频自动转换字幕. 想到的思路: `openai`的`whisper`以及根据这个模型开发的`whisper.cpp`C++应用. 其它的补充: 最好在`linux`下部署, `Windows`下困难太多. --- # 一、部署`whisper` 官方文档要求至少十`python3.8-3.10`, 同时需要`ffmpeg`, 要有`nv`的显卡, 支持`cuda` 直接安装部署: `pip install -U openai-whisper`

不停感叹的老林 2024-01-08

近期资讯

Kindle退市后墨水屏却意外走红：只因年轻人要“戒网瘾”？

新技术成了推手。

雷科技 2024-12-30

江苏老乡为什么从喝洋河，改喝今世缘？

解决增长，警惕时间。

银杏科技 2024-12-30

这十年，吃谷阵地的大变迁

吃谷阵地的变迁，也是吃谷需求的不断迭代。

价值星球Planet 2024-12-30

百年“老字号”靠AI上市，IPO估值10亿美元

一家250余年的传统出版商，用AI实现自我革命。

智东西 2024-12-30

聊聊数据湖、数据仓库和 Lakehouse

聊聊数据湖、数据仓库和 Lakehouse

王建峰 2024-12-30

小米与蔚小理结盟背后：车圈补能热战正酣，能源公司才是终极赢家

死磕广度、密度和速度。

电车通 2024-12-30

宋仲基代言的药妆品牌要被卖了

欧莱雅2024年最后一笔并购定锤。

36氪的朋友们 2024-12-30

「始祖猫」「BB男装」引领平替风潮，滑雪服“卷”向百元时代

年轻人重新定义滑雪时尚

剁椒Spicy 2024-12-30

2024年十大网红城市：10种爆火，背后都有高人

见证2024年网红城市的崛起与更迭。

金错刀 2024-12-30

拳头这波又亏了

《双城之战》商业表现不佳

蔚然先声 2024-12-30

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1