THREADAI：会说话、能识图的ChatGPT来了！距离“超级助理”更进一步

作者：爱笑的刘航发布时间：2023-10-15

ChatGPT OpenAI

ChatGPT将开口说话，并拥有5种不同语音，与Siri等C端个人助理直接竞争，同时还可以根据图片回答或给出建议。

开口说话、装上“眼睛”，多模态ChatGPT来了。

周一，OpenAI在官网宣布，将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能，上述功能允许用户进行语音对话或向ChatGPT展示图片。

语音功能方面，ChatGPT可以用语音来回答问题和命令，与苹果的Siri等C端个人助理形成直接竞争。此外，ChatGPT将有五种不同的语音供用户选择，同时支持语音音频生成文本、将播客语音翻译成其他语言等功能。

图像功能方面，用户提交图片并询问相关问题，ChatGPT可以根据图片回答或给出建议。据悉，语音功能将在iOS和Android平台推出，图像功能将登陆所有平台。

开口说话、5种不同语音

OpenAI升级了用户与ChatGPT的交互方式，用户不仅可以通过在文本框中输入句子，还可以通过大声说话来提示聊天机器人。

这一功能并不陌生，类似于与谷歌助手交谈，只是OpenAI希望，由于底层技术的改进，答案会更好。目前，大多数虚拟助手都在依靠大模型进行重建，OpenAI 只是走在了前面。

OpenAI 于今年 5 月发布了 ChatGPT

应用程序，并已经提供了语音转文本功能。增加语音回复功能可以让用户感觉在进行更人性化的对话。该公司希望这项新功能能鼓励用户随时随地使用其移动应用，并与谷歌的

Assistant、苹果的 Siri或亚马逊的 Alexa 等个人助理产品形成直接的竞争。

OpenAI正在推出一种新的文本转语音模型，并称它可以“通过文本和几秒钟的语音样本生成类似人类的音频”，用户可以从五个选项中选择

ChatGPT 的声音，但 OpenAI 似乎认为该模型的潜力远不止于此。例如，OpenAI 正在与 Spotify

合作，将播客翻译成其他语言，同时保持播客的声音。合成语音有很多有趣的用途，OpenAI 可能会成为这一行业的重要组成部分。

装上“眼睛”、看懂图片

该公司还表示，付费用户和企业用户将可以使用图片功能，图片搜索有点像谷歌 Lens，只需拍下感兴趣的照片，ChatGPT 就会找出问题所在，并做出相应的回应。

例如，用户可以上传一张粉色太阳镜的图片，并要求聊天机器人推荐与之搭配的服装，或者提交一张数学问题的图片，并请求帮助解决。

分析指出，自从 2022 年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力，同时避免造成新的问题出现。通过这次更新，该公司试图在这条界线上寻找平衡点，通过有意识地限制其新模型能做什么来实现这一目标。

但是这种方法并不是长久之计，随着越来越多的人使用语音控制和图像搜索，以及 ChatGPT 逐渐成为一个真正的多模态、实用的虚拟助手，要保持安全和合理的边界会变得越来越困难。

ChatGPT要成为“超级助理”

这次升级无疑令ChatGPT距离“超级助理”更进了一步，同时与下游软件的竞争也更加激烈。

此前文章指出，OpenAI首席执行官Sam Altman私下告诉开发者，公司希望将ChatGPT打造成“超级智能个人工作助理”，使其可以根据个人及工作需求执行多种任务，如按照用户的风格起草邮件或文件，提供相关业务的最新信息。

分析指出，微软和OpenAI均能向需要构建AI能力的 B 端客户提供技术服务，两者之间存在着直接的业务冲突；而从长期来看，如果OpenAI加速布局面向个人及企业的软件，ChatGPT未来很有可能将重塑C端应用生态，或许两者的“关系破裂”是早晚的事情。

近期资讯

冷梓睿 2024-12-28

P500Q（一种高强度合金钢）冷成形和热成形能力优良

1. 概述 P500Q是一种高强度合金钢，以其优异的弹性、强度和抗疲劳性能而广泛应用于制造各种弹簧部件。这种钢材具有良好的淬透性和综合力学性能，使其成为制造高负荷弹簧的理想选择。 2. 化学成分 P500Q的化学成分如下： · 碳(C)：0.56% - 0.64% · 锰(Mn)：0.60% - 0.90% · 硅(Si)：1.50% - 2.00% · 硫(S)：≤0.040% · 磷(P)：≤0.040% · 铬(Cr)：≤0.35% · 镍(Ni)：≤0.35%。 3. 物理性能 P500Q的物理性

上海钢泽合金 2024-12-28

会话存档开源软件可以设置聊天超时提醒吗？

为什么很多企业选择会话存档本地部署的方式？1.部署方式不同本地部署版本是将聊天记录部署在公司自己的服务器中（需提供服务器和域名），适合非常重视数据安全和稳定性的企业。SAAS版是将聊天记录部署在服务商的服务器中，不需要公司提供服务器及域名，对于小型公司来说，部署周期短可快速上线使用。2.开发流程不同SAAS版功能全部由服务商负责开发，如果企业在使用场景中有其他需求，需要联系服务商才能定制化开发。本地部署版本后期，公司可根据实际需求自行定制开发，更能贴合公司的使用场景。3.使用费用不同另外，对于中大企业来说

芝麻客服 2024-12-28

THREADAI：会说话、能识图的ChatGPT来了！距离“超级助理”更进一步

推荐体验

相关资讯

会说话、能识图的ChatGPT来了！距离“超级助理”更进一步

ChatGPT 加持，决策大模型距离 AGI 更进一步

谷歌AI研究：距离1000种语言模型更进一步

像真人一样聊天，ChatGPT向AI助理更进一步|新京报快评

AI赋能下，保险+健康深度融合步伐如何更进一步？

近期资讯

1.8873（一种高合金结构钢）欧洲标准材质

科普！探针台是什么？应用场景和领域有哪些？

高考历史必备影响类答题模板，90分稳了！

衡水老师：熬了9晚，将高中物理三年知识提炼一册思维导图，快背

高中英语作文类型万能句（可打印）

150M40（一种中高碳钢）应用于机械制造

ZG23Cr12MoV（一种高强度、耐热的马氏体铸钢）应用于高温环境

DNSilz6 小冷云二级域名分发：您的卓越之选

P500Q（一种高强度合金钢）冷成形和热成形能力优良

会话存档开源软件可以设置聊天超时提醒吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响