多模态大模型：ChatGPT迎来重磅升级，开启看图、听声音的新时代

作者：小文智能发布时间：2023-10-13

近日，OpenAI宣布对ChatGPT进行了重磅升级，实现了看图、听声音和输出语音内容的功能。这一突破标志着通用人工智能（AGI）的重要里程碑，为未来的发展开启了全新的时代。OpenAI计划在未来两周向Plus和企业版用户提供这些功能，并且语音功能将在iOS和Android平台上使用，而图片识别功能则可以在各个平台上使用。

在图像方面，用户现在可以通过向ChatGPT展示一张或多张图片来提问。这为用户提供了更加直观和多样化的交互方式。无论是对图片内容的询问，还是对复杂图表的数据分析，ChatGPT都能够准确地进行回答。此外，用户还可以使用APP中的绘图工具，高亮标注图片中的特定部分，进一步深入讨论和分析。OpenAI将这一能看图的模型称为GPT-4V(ision)，并在同日发布的论文中详细介绍了该模型的技术原理和应用场景。

而在语音方面，OpenAI与专业配音演员合作，提供了五种不同的声音选择。这使得ChatGPT的语音输出更加多样化和真实。此外，OpenAI还与Spotify展开合作，通过这一功能将播客翻译为其他语言，并保留播客主持人的声音。这项合作将进一步促进跨语言交流和内容传播，OpenAI也将更多的时间用于改进和完善安全漏洞和风险。特别是新的语音技术，能够在几秒内生成逼真的合成声音，这可能为诈骗者提供了便利条件。因此，安全研发策略对于涉及语音和视觉的高级模型至关重要，OpenAI将继续加强安全措施，确保用户的隐私和安全得到充分保护。

根据SimilarWeb的数据显示，这段时间，ChatGPT的流量呈现回升趋势。9月11日当周，ChatGPT的流量较前一周增长了约12%。Sensor Tower的数据显示，8月最后两周全球ChatGPT应用程序的用户每周增长超过10%。这一增长主要得益于学生开始返校，以及印度和巴西市场的增长。ChatGPT作为一个强大的人工智能助手，能够提供广泛的帮助和娱乐，受到了越来越多用户的青睐。

"大模型+小模型+应用&内容"的框架，是多模态大模型未来的发展趋势。Meta推出了AudioCraft，通过AI生成音乐。谷歌的Bard和必应的机器人也已经部署了多模态功能。苹果也在试验AI生成语音Personal Voice。这些创新和应用进一步证明了多模态大模型的潜力和前景。多模态技术可以拓展应用范围，随着大模型功能的逐渐完善，其应用场景与生态也有望进一步丰富，为各个垂直领域的应用带来更多的可能性。用户可以更加直观地与人工智能进行交互，获得更加丰富和多样化的体验。然而，随之而来的安全和算力挑战也需要我们保持警惕和持续创新。未来，多模态大模型将成为人工智能发展的重要趋势，为各个领域的应用带来更多的可能性，并推动AI算力需求的进一步释放。让我们拭目以待，迎接人工智能的未来。

相关资讯

汇正财经 2023-11-11

多模态大模型：ChatGPT迎来重磅升级，开启看图、听声音的新时代

推荐体验

相关资讯

重磅！OpenAI GPT-4震撼发布：多模态大模型，直接升级ChatGPT！

最新消息，即将迎来ChatGPT多模态结合的版本升级！

多模态模型的威力：使用OpenAI实现看图写话

AI大模型：开启智能新时代的钥匙

【汇正财经】迎看、听、说重磅升级，多模态大模型渐成趋势

近期资讯

中核核电运行管理有限公司取得一种两位三通电磁阀专利，使阀座内部结构更加简单，电磁阀的体积减小

浙江盾安禾田取得止挡结构及具有其的多通阀专利，解决多通阀切换噪音问题

浙江梵盛流体控制取得一种温控流量调节组合阀专利，提高密封性能

浙江盾安禾田取得防冻排水装置专利，解决用水系统相关复杂问题

思榕科技取得推拉式通断阀专利，有效提高密封性

广东维杰取得气缸直驱式快速切换三通阀专利，实现流体路径快速切换

南安亚布洁具取得冷启动式水龙头专利，有效节约能源

盾安禾田取得多通阀专利，解决阀芯容易过度转动问题

金融监管总局：银行保险机构应当建立针对大数据、云计算、移动互联网、物联网等多元异构环境下的数据安全技术保护体系

浙江杭惠阀门取得控制阀专利，满足高压差大可调比极端复杂工况要求

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响