重磅升级，“现在，ChatGPT 能看、能听、能说了”

作者：CSDN发布时间：2023-09-27

今日凌晨，OpenAI 突然放了个大招：“ChatGPT 现在能看、能听、能说了！”

根据 OpenAI 官网宣布：ChatGPT 即将推出新的语音和图像功能，并将于未来两周内面向 Plus 和 Enterprise 用户推出。另外语音功能也将在 iOS 和 Android 上推出（可在设置中选择加入），而图像功能将在所有平台上推出。

01 如何使用新语音和图像功能？

“语音和图像功能，将为你在生活中使用 ChatGPT 提供更多方式。”为了证明新功能的实用性，OpenAI 例举了一些例子：

旅行时，拍下地标性建筑的照片，然后与 ChatGPT 聊聊其有趣之处；

在家时，拍下冰箱和储藏室的照片，让 ChatGPT 想出晚餐的菜谱；

晚饭后，帮孩子做一道数学题，拍下照片并圈出问题，让 ChatGPT 给出提示并帮助孩子解决问题。

（1）通过语音与 ChatGPT 对话

据介绍，ChatGPT 新增的语音功能由一个新文本到语音模型提供支持，能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”，OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时，OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。

因此整体上来说，ChatGPT 的这个语音功能，使用方法跟手机上的语音助手类似，即用户点击按钮说话，ChatGPT 就会自动将其转换为文本，然后生成对应回答并将其转为语音。

如果你想使用语音功能，可以在手机的 ChatGPT App 的“设置”中找到“新功能”，选择“语音对话”后，点击屏幕右上角的耳机按钮，即可从 5 种不同的声音中选择你最喜欢的声音，进行来回对话。

除此之外，ChatGPT 还支持把已有文字转为对应语音，用户可下载这段语音或对其进行调速。

（2）在聊天中，用图像向 ChatGPT 提问

想使用 ChatGPT 图像功能的用户，可点击照片按钮拍照或选择本地图片，如果你使用的是 iOS 或 Android 系统，可点击加号按钮进行选择。

OpenAI 表示新增的图像功能由多模态 GPT-3.5 和 GPT-4 模型支持，可将语言推理能力应用于各种图像，如照片、屏幕截图以及包含文字和图像的文档。该功能上线后，用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分，也可以使用 App 中的绘图工具进行标注。

02 OpenAI 目标：“构建安全、有益的 AGI”

不过，正如 OpenAI 所说，其目标是“构建安全、有益的 AGI”，因此当 ChatGPT 涉及到语音和视觉的高级模型时，也提出了担忧：“这些功能也带来了新的风险。”

就语音功能而言，虽然该技术能从几秒钟的真实语音中制作出逼真的合成语音，为许多创造性和无障碍应用打开大门，但同时恶意行为者也可能借此冒充公众人物或实施欺诈。

考虑到这一点，OpenAI 只将这项技术用于语音聊天，且语音样本也是由直接合作的配音演员创建的。不过 OpenAI 透露 Spotify 正在将这项技术用于其语音翻译功能，即将播客内容翻译成其他语言后，合成播主自己的声音来讲述，从而扩大播客的影响力。

与之相似的，视觉功能也在日常生活中经常使用，为此 OpenAI 在进行更广泛的部署之前，与极端主义和科学能力等领域的风险研究人员以及测试者一起对模型进行了测试，确保能够在一些关键细节上保持一致，以实现“负责任的使用”：

OpenAI 与盲人和低视力者的免费手机应用 Be My Eyes 合作，了解其用途和局限性，并从中直接借鉴该应用的方法。

OpenAI 还采取了技术措施，极大限制了 ChatGPT 对于人的分析和直接陈述——“因为 ChatGPT 并不总是准确的，这些系统应尊重个人隐私。”

除此之外，OpenAI 提到 ChatGPT 背后模型的局限性很公开透明，因此不鼓励用户依赖 ChatGPT 来处理专业研究领域，尤其是未经适当验证的高风险用例。另外，ChatGPT 新增语音功能的背后，其模型更为精通英语文本的转录，因此 OpenAI 提醒到：“但对于其他一些语言，尤其是非罗马字母的语言，（ChatGPT）表现不佳，我们建议非英语用户不要将 ChatGPT 用于此目的。”

03 网友吐槽：“这个演示效果，似乎不怎么样啊？”

ChatGPT 的这个重磅升级，吸引了不少网友的关注，但不同于 OpenAI 的自信，不少网友指出了该公告中的演示效果，似乎“不怎么样”：

“语音功能好像还不错，但这个演示对我来说，看起来似乎不怎么样，因为提问和响应之间存在数秒的延迟，导致 ChatGPT 就像其他所有蹩脚的语音助手一样。”

“没错，按理说它应该在我说完之后就立刻回答我，我也可以在中间打断它。我不想考虑如何根据显式呼叫/响应链来构建交互，也不想非常小心地总是说话。”

“我认为现在需要的是一个语音对话轮流数据集和模型，这也是目前现有的语音识别系统中所缺失的——真正自然的语音对话系统，应该就是为这些模型解锁一组全新的用户和用例。对于像 OpenAI 这样的公司来说，构建这样一个模型应该不太难吧。”

同时，也有部分用户认为，ChatGPT 新推出的这一功能，或将“杀死”不少基于 ChatGPT 开发类似功能的初创公司：

“这个公告似乎已经杀死了许多试图在 ChatGPT 之上进行多模态的初创公司。我已经可以看到“Alexa / Siri / Google Home”的替代品、“谷歌图像搜索”的替代品，另外通过拍照来解决 AI 问题的初创公司也注定要失败。”

那么基于 OpenAI 展示的演示效果，你对 ChatGPT 新推出的语音和图像功能又有何看法呢？

参考链接：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://news.ycombinator.com/item?id=37642335

本文来自微信公众号“CSDN”（ID:CSDNnews），36氪经授权发布。

重磅升级，“现在，ChatGPT 能看、能听、能说了”

01 如何使用新语音和图像功能？

02 OpenAI 目标：“构建安全、有益的 AGI”

03 网友吐槽：“这个演示效果，似乎不怎么样啊？”

推荐体验

相关资讯

chatgpt将支持多模态功能：能听能说还能看

ChatGPT大更新！能看能听也能说，多模态功能即将上线

ChatGPT能说能听能看了！但是朋友圈已经不关心了。

ChatGPT重大升级，能看能听还会说，更像人了！

OpenAI发布GPT-4o，能听能看能说 | 钛媒体AGI

近期资讯

国泰君安：我国智算中心相关领域投资有望加速

解数｜AI眼镜有哪些黑科技，何时能迎来大爆发

知名医学专家“被带货”，经济日报：重视防范AI造假风险

DeepSeek上线V3版本，可灵AI推出可图1.5支持一键生成AI模特 | 蓝媒GPT

itch 一周游戏汇：12月16日-12月22日（下）

华为，突然降价！

六个机械振荡器实现集体量子态

药明生物与中国生物制药就“First-in-Class”单抗达成研究服务合作

世界首片下线！

大疆 DJI Flip 折叠无人机更多图片泄露：紧凑便携，支持FPV飞行

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响