当前位置:首页|资讯|OpenAI|ChatGPT

OpenAI上线ChatGPT高级语音模式,并发布包含14种语言的数据集

作者:DeepTech深科技发布时间:2024-10-06

近日,OpenAI 在 AI 全球化进程中迈出了重要一步。

该公司不仅上线了 ChatGPT 的高级语音模式(AVM,Advanced Voice Mode),还发布了一个包含 14 种语言的多语言数据集,用于评估语言模型的性能。

这两项举措都旨在提升 AI 技术的全球可及性和实用性。

OpenAI 宣布,将其 AVM 扩展到更多付费用户。这一音频功能使得用户与 ChatGPT 的交流更加自然,初期将向 ChatGPT Plus 和 Teams 客户推出。企业和教育客户将于下周开始获得访问权限。

作为推广的一部分,AVM 进行了设计改版。目前,蓝色的跃动球体作为这项功能的显示,取代了 OpenAI 在 5 月份展示该技术时所用的黑点。

如果对用户开放 AVM 功能,用户会在 ChatGPT 应用程序中的语音图标旁边收到一个弹出窗口。

此外,ChatGPT 还新增了 5 个用户可以尝试的声音,分别是:阿伯(Arbor)、梅普尔(Maple)、索尔(Sol)、斯普鲁斯(Spruce)和维尔(Vale)。

在此基础上,ChatGPT 的声音种类的总数已达到 9 个,几乎与谷歌的 Gemini Live 一样多。

有意思的是,其命名的来源受到大自然的启发,这也许是因为想让 ChatGPT 用起来感觉更亲切。

值得注意的是,OpenAI 在春季更新时展示的“天空(Sky)”声音并未出现在此次更新中。原因在于,著名演员斯嘉丽·约翰逊(Scarlett Johansson)提出了反对。

约翰逊在电影《她》(Her)中扮演了一个 AI 系统,她声称 Sky 的声音与她自己的声音太过相似。

作为回应,OpenAI 迅速下架了 Sky 的声音,称其从未打算模仿约翰逊的声音,尽管当时有几名员工在推文中提到了这部电影。

(来源:OpenAI)

OpenAI 对媒体表示,从公布 AVM 的 alpha 测试起,他们已经进行了一系列改进。

与此前相比,目前,ChatGPT 的语音功能对口音的理解力更佳,对话也更流畅、更快速。

此外,OpenAI 把 ChatGPT 的部分定制功能扩展到 AVM,例如允许用户定制 ChatGPT 的回应方式。

然而,ChatGPT 的视频和屏幕共享功能尚未在此次推广中出现。该功能本应允许 GPT-4 同时处理视觉和听觉信息。目前,OpenAI 还没有提供何时推出这些多模态功能的时间表。

除了高级语音模式,OpenAI 还在开放数据平台 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU,Multilingual Massive Multitask Language Understanding)数据集。

这个新的评估工具是在 MMLU 基准测试的基础上发展而来。

MMLU 原本只针对英语,测试 AI 系统在数学、法律和计算机科学等 57 个学科领域的知识。而新的 MMMLU 数据集则囊括了中文、阿拉伯语、德语和孟加拉语等 14 种语言。

通过将这些多样化的语言纳入新的多语言评估中,尤其是在其中一些语言的训练数据资源有限的情况下,OpenAI 为多语言 AI 能力设立了新的基准。

这一基准测试可能会为该技术带来更公平的全球访问机会。一直以来,AI 行业因无法开发出能理解全球数百万人使用的语言的语言模型而受到批评。

直到最近,AI 研究主要集中在英语和少数几种广泛使用的语言上,导致许多低资源语言被忽视。

OpenAI 决定将包括斯瓦希里语和约鲁巴语在内的语言收录其中,这些语言虽然使用者众多,但在 AI 研究中经常被忽视。这也标志着,AI 技术正朝着更具包容性的方向发展。

为了确保 MMMLU 数据集的准确性,OpenAI 聘请了专业人工翻译,这比依赖机器翻译的同类数据集更为精确,特别是在训练资源较少的语言中。

通过依靠人类的专业知识,OpenAI 确保该数据集为评估多语言 AI 模型提供了更可靠的基础。

对于企业而言,MMMLU 数据集提供了在全球背景下对其自身 AI 系统进行基准测试的机会。

随着公司向国际市场扩张,部署能够理解多种语言的 AI 解决方案的能力变得至关重要。

无论是客户服务、内容审核还是数据分析,在多种语言中表现良好的 AI 系统都可以通过减少沟通摩擦和改善用户体验,来提供竞争优势。

除了发布 MMMLU 数据集,OpenAI 还启动了 OpenAI 学院(OpenAI Academy)项目,以进一步履行其对全球 AI 可及性的承诺。

(来源:OpenAI)

据介绍,该学院旨在投资开发人员和以使命为导向的组织,这些组织正在利用 AI 来解决其社区中的关键问题,特别是在低收入和中等收入国家。

学院将提供培训、技术指导以及 100 万美元的应用程序编程接口(API,Application Programming Interface)信用点,以确保当地 AI 人才能够访问前沿资源。

通过支持了解其地区独特社会和经济挑战的开发人员,OpenAI 希望赋予社区能力,以构建为当地需求量身定制的 AI 应用程序。

参考资料:

https://techcrunch.com/2024/09/24/openai-rolls-out-advanced-voice-mode-with-more-voices-and-a-new-look/

https://venturebeat.com/ai/openai-tackles-global-language-divide-with-massive-multilingual-ai-dataset-release/

运营/排版:何晨龙


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1