ChatGPT能说能听能看了！但是朋友圈已经不关心了。

作者：TechVerse发布时间：2023-09-26

ChatGPT能说能听能看了！但是朋友圈已经不关心了。

今天晚上，OpenAI的CEO Sam Altman突然放出了大家期待已久的大招：

ChatGPT将在未来几周内开放语音和视觉功能，也就是官方形容的，ChatGPT现在能看，能听，能说了。

并且放出了一个非常直观的视频，展示ChatGPT的视觉能力

AI相关的自媒体迅速行动起来抢热点，这是难得的爆炸新闻，还有官方的视频素材，（可惜TechVerse今天推送过文章，所以只能在今天凌晨发出这篇文章）。

但是，在无法第一时间抢热点的焦虑中度过一段时间后，我发现，除了自媒体们，大家并没有想象的激动，我也没有在朋友圈看到刷屏的自行车。没有了转发的“魔法”，“革命”，”太强了“， AI也开始经历Web3的旅程，变得没人关心了。

这其中的原因，被大家讨论过很多遍了，过高的预期和今天AI的能力限制的矛盾，让越来越多的人不再那么兴奋，可是今天这样的大招都没能掀起刷屏，也着实让人惊讶，AI凉的速度之快。但是，科技的浪潮就是在这样的泡沫和低谷中交替前进的，今天发布的新功能，可能正是解锁LLM场景的一把钥匙：

概括一下ChatGPT发布的功能：

OpenAI正在ChatGPT中推出新的语音和图像功能。这些新功能提供了更直观的交互方式,允许用户与ChatGPT进行语音对话或向其展示正在讨论的内容。

主要值得关注的点包括:

用户现在可以与ChatGPT进行语音交谈,它可以回复你。这个新功能由文本转语音模型提供支持,可以从文本和少量语音样本生成逼真的语音。

用户现在可以在ChatGPT中展示一张或多张图像,以获取相关帮助和见解。在移动应用上,可以使用绘图工具聚焦图像的特定部分。这些视觉能力由多模态GPT-3.5和GPT-4提供支持。

OpenAI正逐步推出这些新功能,以进行改进和风险缓解,并准备用户使用更强大的系统。考虑到语音和视觉能力带来的新风险,这种渐进策略尤为重要。

其中，官方给出了一些可能的应用场景：

当旅行时,拍下一处地标的图片,并就其有趣之处进行语音交谈。

在家时,拍下冰箱和食品柜的图片,弄清做什么晚餐(并提出后续问题获取步骤式食谱)。

晚餐后,通过拍照、圈画题目,并与孩子共享提示,帮助孩子解决数学问题。

也包括视频中的案例，指导用户选择正确的工具调节自行车座椅的高度。

这些场景，实际上就是一个原生的AR AI助手需要的功能！如果用户佩戴一副有摄像头的智能眼镜，今天，LLM第一次可以就像一个万能的助理，通过自己的眼睛和用户分享同样的信息，并且直接提供帮助。而语音的交互，可能更好的在这种场景实现输入和输出。

随着今年下半年Meta Quest3的发货和明年Vision Pro的发布，这也许会让LLM在XR设备中发挥更大的作用。让人类向虚拟世界更进一步了！

AI，凉一点，才有点靠谱的味道。

ChatGPT能说能听能看了！但是朋友圈已经不关心了。

ChatGPT能说能听能看了！但是朋友圈已经不关心了。

推荐体验

相关资讯

为什么大家都不关心OpenAI了？

OpenAI发布GPT-4o，能听能看能说 | 钛媒体AGI

重磅升级，“现在，ChatGPT 能看、能听、能说了”

chatgpt将支持多模态功能：能听能说还能看

现象级消费产品ChatGPT，创新焦虑的背后是对用户的“漠不关心”

近期资讯

2024年度硬件推荐指南

354+ 个芯片平台适配小米 Vela，60+ 厂商加入全球合作伙伴计划

珞石机器人启动A股IPO：具备工业和协作双品类机器人产品线

中交路桥取得一种料斗专利，可调节料斗内部容量

工信部：加强通用大模型和行业大模型研发布局和重点场景应用

OPPO Find N5春季登场：首款骁龙8至尊版大折叠屏

参数惊艳！AMD锐龙9 9950X3D CPU-Z截图曝光

小米超级小爱首次向正式版用户开放：新增三大能力支持5种唤醒

游戏屏幕大乱斗！海信Vidda发现X Pro百寸电视大放异彩

武汉城市安全风险监测预警平台上线

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响