Meta AI大模型能识别4000多种语言，称错误率仅有OpenAI产品的一半

作者：DeepTech深科技发布时间：2023-05-23

Meta 宣布，自己已经建立了新的人工智能模型，可以识别和产生 1000 多种语言的语音——比目前可用的模型增加了 10 倍。该公司表示，这是朝着传承有失传风险的语言迈出的重要一步。

Meta 正在通过 GitHub 向公众发布其模型。它声称，开源这些模型将帮助使用不同语言的开发人员构建新的语音应用程序——比如可以明白每个人所说语言的消息传递服务，或者可以用于任何语言的虚拟现实系统。

世界上大约有 7000 种语言，但现有的语音识别模型却只覆盖了其中的大约 100 种语言。这是因为此类模型往往需要大量的已标注训练数据，而这些数据只适用于少数语言，例如英语、西班牙语和汉语。

Meta 的研究人员通过重新训练该公司在 2020 年开发的一种现有的人工智能模型，从而解决了这个问题，该模型能够从音频中学习语音模式，而不需要大量的标记数据，比如转录后的文字记录。

（来源：STEPHANIE ARNETT/MITTR | ENVATO）

他们对两组新数据集进行了训练：一套包含《圣经·新约》的录音，以及来自互联网上的 1107 种语言的圣经对应文本，另一组包含 3809 种语言的未标记的圣经录音。该团队首先处理了语音音频和文本数据，以提高其质量，然后运行一种算法，将音频记录与对应的文本对齐。然后，他们用新对齐的数据训练另一种算法。有了这种方法，研究人员能够训练算法更容易地学习一种新的语言，即使没有对应的文本。

“我们可以利用这个模型学到的东西，用非常非常少的数据快速构建语音系统，”担任该项目的研究科学家的迈克尔·奥利（Michael Auli）说。”

“对于英语，我们有很多很多好的数据集，但对于一些语言而言，我们可能找不到 1000 个使用者，我们拿不到好用的的数据集。”

研究人员表示，他们的模型可以转换 1000 多种语言，但能识别 4000 多种语言。

他们将这些模型与包括 OpenAI Whisper 在内的竞争对手的模型进行了比较，并声称它们的错误率只有竞品的一半，尽管 Meta 覆盖的模型是竞品的 11 倍。

然而，该团队警告说，该模型仍然存在误译某些单词或短语的风险，这可能导致不准确或潜在的冒犯性标注。他们还承认，他们的语音识别模型比其他模型产生了更多的偏见词汇，不过只高出了 0.7%。

研究非洲语言自然语言处理的克里斯·艾姆祖（Chris Emezue）表示，虽然这项研究的广度令人印象深刻，但使用宗教文本来训练人工智能模型可能存在争议。他没有参与这个项目。

支持：Ren

原文：

https://www.technologyreview.com/2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

Meta AI大模型能识别4000多种语言，称错误率仅有OpenAI产品的一半

推荐体验

相关资讯

Meta开源多语言大模型，可识别4000多种语言、错误率仅为OpenAI产品的一半

因错误率较高，OpenAI被迫叫停AI内容识别软件

OpenAI：ChatGPT的错误率升高正展开调查

OpenAI：正在调查ChatGPT错误率升高的情况

OpenAI调查助手API错误率上升问题

近期资讯

晶安玻璃取得玻璃磨边机辅助组件专利，减少玻璃加工的时间

四川佛能达取得防火玻璃生产用倒角机专利，方便对不同防火玻璃倒角过程中的限位工作

如何轻松找回忘记的ID密码及提升账号安全性的方法

南通向阳光学元件取得半自动光学玻璃的侧边加工机专利，方便对光学玻璃调整方向

如何轻松设置电脑自动关机，提升工作与生活效率的实用指南

山西绿建智造取得中空玻璃加工用磨削加工机专利，避免玻璃破碎

如何轻松查看电脑主板型号的多种方法与技巧

如何轻松设置Windows 10的锁屏时间，提升使用体验与安全性

四川省鑫鼎顺玻璃取得双向打磨玻璃装置专利，具有打磨效果好且工作效率高的优点

如何轻松设置QQ聊天背景，提升个性化聊天体验

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响