多模态功能上线，OpenAI让ChatGPT能说话、会看图

作者：三易生活发布时间：2023-09-28

此前谷歌无疑是AI领域无可争议的领头羊，它开源的深度学习框架TensorFlow更堪称是AI世界的基石，但是这一切却在2022年秋季戛然而止，OpenAI的ChatGPT横空出世让谷歌很快就黯然失色。并且外界没有想到的是，就在一年后，OpenAI又一次“截胡”谷歌。

日前在毫无征兆的情况下，OpenAI发布了题为《ChatGPT现在能看、能听、能说》的公告，宣布将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能。

根据OpenAI方面透露的信息显示，ChatGPT的多模态版本在10个月前就已经训练好了。那么为什么此前一直藏着掖着，现在却突然发布呢？外界推测，或许是因为不能让谷歌抢了先。

最近这段时间，业内风传谷歌方面即将发布多模态模型Gemini，并且它可能会成为AI行业游戏规则的改变者。按照桑达尔·皮查伊的说法，Gemini集成了多种技术，支持同时输出文本和图像，还可以使用工具和API。所以在外界看来，面对来势汹汹的谷歌，OpenAI方面自然要用实际行动来还以颜色。

所以在这一轮的更新中，ChatGPT不仅仅能够理解用户输入的文字，甚至还拥有了识别并理解语音、图像信息的能力。语音识别能力很简单，因为该功能使得ChatGPT获得了类似Siri、小爱同学的能力，并将提供五种不同的语音供用户选择，同时支持语音音频生成文本、将播客内容翻译成其他语言等功能。其实早在今年5月，ChatGPT已经支持了语音转文本功能，所以现在更进一步上线文本转语音功能并不那么令人意外。

至于ChatGPT读取图像的能力，则早在今年春季OpenAI演示GPT-4时就已经被曝光。彼时OpenAI联合创始人Greg Brockman在纸上画出了他构想的网站草稿示意图，并拍了一张照片上传给GPT-4，后者立刻生成了这个网站的HTML代码。只不过这一能力在当时，被GPT-4更加耀眼的推理判断能力所掩盖。

尽管看起来OpenAI为ChatGPT赋予的这两个新能力似乎有些平平无奇，但实际上它们会让ChatGPT的体验更上一层楼。

先来说说ChatGPT能听懂用户说什么，并直接用语音与用户对话这个功能，据悉OpenAI联手专业配音演员为ChatGPT提供了Juniper、Sky、Cove、Ember和Breeze五种不同的合成声音。其实ChatGPT的语音能力确实没有出人意料，因此它的本质还是语音合成TTS（Text-to-Speech）。

在经过十余年的发展后，如今的TTS技术其实已经相当成熟，AI会将输入的文本内容先切分词语、分割句子、标注语音语调，进而确定文本结构和语义信息，再结合语音合成模型，来生成包括音高、音量、语速、韵律在内的声学模型，最后加入波形合成就让AI能说话了。而ChatGPT的优势，在于它可以进行自然流畅的对话，几乎能模仿人类对话的方式，这就会让用户与它的对话有一种和人类、而非机器，隔着屏幕交流的体验。

如果说语音能力让ChatGPT更像“人”，那么读取图像的能力就可以说是此次ChatGPT多模态能力中最让人惊喜的部分了。此前，OpenAI在GPT-4上展示从草稿到网站的功能被称为“代码解释器”（后改名为高级数据分析），但其面向的场景极为有限。而如今ChatGPT的图像读取能力则更加贴近用户的日常生活，毕竟随便一拍的照片就能得到ChatGPT的回应。

根据OpenAI方面给出的示例，用户现在可以拍一张冰箱的照片，然后让ChatGPT来推荐菜谱；在旅行时拍一张地标的照片，让ChatGPT来讲述这处景点的有趣之处；还能拍一张数学题的照片，让ChatGPT来解答；更可以在炒股时拍一张K线图，让ChatGPT来替你看盘。但值得一提的是，OpenAI也主动对ChatGPT的图像读取能力进行了限制。

如果想要凭借一张电影的截图来让ChatGPT追溯电影的出处，ChatGPT是不会理你的，如果想要用一张名人的照片来让ChatGPT评价这个人，它也会拒绝。简单来说，ChatGPT会拒绝一切可能在法律和伦理上引发风险的问题。其实这也很好理解，毕竟正处于风口浪尖上的OpenAI，确实需要爱惜羽毛以避免陷入更多的漩涡中。

在已经收到更新的用户测试中，ChatGPT的图像读取并非是传统的“以图搜图”。有网友使用Midjourney现场生成的图片，但ChatGPT依然能够准确辨识这张图片的内容，这也就意味着ChatGPT是在真正意义上拥有了理解图像的能力。当然，ChatGPT的图像读取功能并非万能，OpenAI方面就在相关论文中指出，ChatGPT会在空间感、多个图层混合、上下文推理、遮挡纹理等场景产生“幻觉”。

如果仅仅只是这样，ChatGPT的图像读取能力可能并不会让人特别兴奋，它真正的“王炸”在于识别验证码。现在许多用户对于验证码厌烦透顶，这显然已经是不争的事实，面对各种稀奇古怪的验证码，特别是诸如12306验证码识图这种让机器束手无策、更难倒了许多用户的情况，未来也完全可以让ChatGPT代劳。只不过，这一技术也会带来一定的弊端。

要知道，验证码这一如今在互联网上被广泛使用的技术，其实就是为了区分人类和机器的操作而诞生。ChatGPT能够准确识别验证码，就等于动摇了整个验证码体系。毕竟验证码作为一个反向的“图灵测试”，确实在一定程度上隔绝了机器人的侵扰。一旦ChatGPT辨识验证码的能力被黑产应用，或许X、Instagram、微博、知乎等社交平台的机器人恐怕就会更加猖獗。

或许，这就是新技术所带来的阵痛吧。

【本文图片来自网络】

推荐阅读：

UFS 4.0闪存都这么快了，为什么不用在电脑上呢

虽然可能会很贵，但将UFS4.0用到笔记本电脑上并非没有价值。

今年这个双11，微信对淘宝广告敞开怀抱

对于双方来说，此次合作可以说是妥妥的双赢了。

本文来自微信公众号“三易生活”（ID：IT-3eLife），作者：三易菌，36氪经授权发布。

多模态功能上线，OpenAI让ChatGPT能说话、会看图

推荐体验

相关资讯

多模态功能上线，OpenAI让ChatGPT能说话、会看图

ChatGPT最重大更新来了：多模态将上线，能说会看了

新功能上线！ChatGPT上线应用“代码解释器”

ChatGPT新功能上线：接近真人的水平

微信新功能上线，绝了

近期资讯

三星 Galaxy S25 系列想要 Qi2 无线充电，需额外购买磁吸手机壳

四川博正达机械密封件科技取得金属包装箱平口数控圆盘锯机床专利，加快了对物件切割速度

湖北兴福申请一种钼的磷酸基蚀刻液专利，能对金属钼沉积层有效蚀刻且蚀刻后表面无残余、粗糙度降低

苹果如何通过质量、服务与创新赢得消费者信任的深度分析

索尼PS5已进入生命周期后半段 2024年将迎多项变革

苹果手机截屏技巧详解：简单操作与实用功能分享

维达力申请Cr-Zr-N合金涂层用于基材表面导电涂层应用专利，作为导电涂层兼具较好导电性能和优异耐腐蚀性能

荣耀CEO赵明：iPhone降价加剧行业竞争荣耀将迎更多挑战

新手机激活全攻略：顺利开启智能生活的第一步

华为官方翻新机开售！售价仅4288元起

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响