当前位置:首页|资讯|ChatGPT|OpenAI

ChatGPT全新升级:语音与图像交互,为未来的智能对话开启新篇章

作者:敏锐杰西发布时间:2023-09-26

原标题:ChatGPT全新升级:语音与图像交互,为未来的智能对话开启新篇章

听说了吗?OpenAI又出新了!

他们正在推出ChatGPT的全新语音和图像功能,提供了一种全新、更直观的交互方式,通过语音对话或以图片形式向ChatGPT展示讨论的内容。

这些新增功能让ChatGPT更加融入日常生活。在旅行中拍摄一个地标,与GPT即时讨论这座地标的特点;回家后,拍摄冰箱和食品储藏室的内容,询问今晚的晚餐菜单(还可以进一步询问食谱的每一步);通过拍照并圈选题目,帮助孩子解决作业问题,同时提供解题提示。

在接下来的两周内,团队将为Plus和Enterprise用户推出ChatGPT的语音和图像功能。语音功能即将在iOS和Android上线(在设置中选择加入),而图像功能将在所有平台上提供。

与ChatGPT进行语音交互

您现在可以用语音与助手进行双向对话。在路上与其交谈,为家人请求一个睡前故事,或解决餐桌上的争论。

要启用语音功能,只需在移动应用中前往设置 → 新功能,选择开启语音交流,点击主屏幕右上角的耳机按钮,并从五种声音中选择喜欢的声音。

这项新的语音功能由一个新的文本到语音模型支持,能够在短时间内从纯文本生成与人类相似的音频。团队与专业配音演员合作,为每种声音创设独特的音调。同时,他们使用了自己的开源语音识别系统Whisper,将语音转化为文本。

与ChatGPT分享图片

向ChatGPT展示一个或多个图片。无论是为了解决烧烤架不启动的问题,还是为了规划一顿饭的食材,或是为工作相关数据分析一张复杂的图表,都可以轻松处理。如果需要聚焦到图片的某个具体部分,还可联动到OpenAI移动应用中的绘图工具。

开始时,点击拍照按钮来捕捉或选择一张图片。如果是iOS或Android系统,首先点击加号按钮。还可以分享多张图片或使用绘图工具来指引GPT。

这项图片识别功能得益于多模态的GPT-3.5和GPT-4技术,它们的语言理解能力应用到各种图片上,如照片、屏幕截图和包含文本与图片的文件。

我们正在分步骤部署图像和语音功能

OpenAI的目标是构建既安全又有益的AGI。逐步提供这些工具对OpenAI来说无疑是良方,给开发团队充足时间加以改进,不断完善风险控制措施,同时准备更加强大的未来系统。对于涉及语音和视觉的先进模型,这种策略显得更加重要。

语音

新的语音技术可以从简短的真实语音样本中制作逼真的合成语音,为许多创意和辅助功能应用开辟了新途径。但同时,这些功能也带来了新的风险,例如有人可能会以此冒充公众人物或诈骗。

因此,开发团队仅为特定的使用场景提供这项技术支持,即语音聊天。语音聊天由团队与配音演员直接合作创建。同时,他们也与其他合作伙伴进行了类似的合作。例如,Spotify正在借此进行他们的语音翻译功能的试点,帮助播音员通过用自己的声音翻译播音内容,将他们的内容传达到其他语言的听众。

图像输入

基于视觉的模型也带来了新的挑战,这些模型可能会错误地“看到”不存在的人或物,或者在某些非常重要的领域中对图片的解释不准确。

为了确保模型在广泛使用之前是安全的,开发团队进行了大量测试。邀请专家来检测模型是否有可能被用于非法目的,比如传播极端思想或做有失偏颇的科学研究。他们还邀请了情况各异的测试者来测试这个模型。

使视觉既有用又安全

与其他ChatGPT功能一样,视觉功能旨在协助日常生活,而最佳的协助方式是能够看到人们所看到的。

这种方法直接受到OpenAI与Be My Eyes合作的启发,这是一个为盲人和视力受损的人提供的免费app。用户表示,他们发现与背景中偶尔出现的人进行关于图片的一般对话是有价值的,比如在尝试弄清楚遥控器设置时,有人出现在电视上。

而出于尊重个人隐私和ChatGPT有时不准确的特性,团队限制了ChatGPT分析和直接评论人的能力。

关于模型局限性的透明度

用户可能会依赖ChatGPT处理专业话题,例如在研究领域。针对这种情况,开发者对模型的局限性保持透明,并不鼓励在没有适当验证的情况下进行高风险的使用。此外,该模型擅长转录英文文本,但在处理其他语言,特别是使用非罗马文字的语言时,效果寥寥。因此OpenAI建议:非英语用户不要使用ChatGPT进行类似科研等专业要求较高的任务。

即将扩大使用权限

在接下来的两周内,Plus和Enterprise用户将体验到语音和图像功能。不久后这些功能将推出给其他用户群体,包括开发者。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1