OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互

作者：DeepTech深科技发布时间：2024-05-14

OpenAI 人工智能

OpenAI 今天推出了 GPT-4o，这是一种新型的人工智能模型，你可以通过语音、视频和文本与它进行实时沟通。

OpenAI 表示，该模型将在未来几周内上线，并将通过 ChatGPT 应用程序和网页版免费开放给所有用户。ChatGPT 的付费订阅用户（每月 20 美元起）将能够提出更多请求。

OpenAI 的 CTO 米拉·穆拉蒂（Mira Murati）主持了 GPT-4o 的发布和现场演示。

值得一提的是，发布会的时间刚好选在谷歌召开 I/O 大会的前一天，谷歌预计将在大会上公布其最新的人工智能进展。

现有的 GPT-4 虽然提供了类似的功能，为用户提供了多种与 OpenAI 人工智能产品交互的方式，但这些功能被放在不同的模型中，导致响应时间更长，计算成本可能也更高。

GPT-4o 现在已经将这些功能合并到一个单一的模型中，穆拉蒂称之为“全能模型（omnimodel）”。她说，这意味着更快的响应和更平稳的任务转换。

该公司的演示表明，其结果是一个与 Siri 或 Alexa 非常相似的对话助手，但能够处理更复杂的提示。

穆拉蒂在谈到演示时说：“我们正在展望我们自己和机器之间互动的未来。我们认为，GPT-4o 正在将目前的合作范式转变为更具未来色彩的合作模式。未来，这种互动将变得更加自然。”

巴雷特·佐夫（Barret Zoph）和马克·陈（Mark Chen）都是 OpenAI 的研究人员，他们介绍了新模型的一些应用场景。

最令人印象深刻的是它应对实时对话的能力。你可以在模型的回应过程中打断它，它会停下来，听你讲完并调整回应，就像真人一样。

OpenAI 也展示了改变模型语调的能力。马克让模型在睡前读一个“关于机器人和爱情”的故事，然后他迅速补充称，要用更戏剧化的声音朗读。

随即，该模型变得越来越戏剧化，直到穆拉蒂要求它迅速转向令人信服的机器人声音（它很擅长这一点）。

在对话过程中，模型会出现一些短暂的停顿，这是它在推理下一步该说什么，但这并不令人意外。OpenAI 展示了一场节奏非常自然的人类与人工智能的对话。

（来源：OPENAI）

该模型还可以实时推理视觉问题。佐夫用手机拍摄了自己在一张纸上写代数方程 3x+1=4 的过程，并让 GPT-4o 提供解题思路。他指示它不要直接给出答案，而是像老师一样指导他。

该模型友好地说：“第一步是把所有带未知数 x 的项移到一边。那么，你认为我们应该如何处理这个加号？”

穆拉蒂表示，GPT-4o 将存储用户与它的交互记录，这意味着该模型“现在在你的所有对话中都具备一种连续性”。演示的其他亮点包括实时翻译，检索模型对话内容的能力，以及实时查询信息的能力。

正因为是现场演示，我们得以看到了一些小问题和小故障。在谈话中，GPT-4o 的声音可能会不合时宜地响起。在无人要求的情况下，它似乎对其中一位主持人的衣着发表了评论。

但当演示者告诉模型它做错了时，它处理得很好。它似乎能够在其他模型尚未有效合并的几种媒介上快速、有效地做出反应。

此前，OpenAI 的许多最强大的功能，如通过图像和视频进行推理，都只限于付费用户。

GPT-4o 标志着它们将首次向更广泛的公众开放，尽管目前还不清楚免费用户能与该模型进行多少次互动。

OpenAI 表示，付费用户的消息限制“仍然是免费用户限制的五倍”。

支持：Ren

运营/排版：何晨龙

近期资讯

洛阳科创新材料取得种锂电池负极材料碳化坩埚结构专利，能够降低氧气含量

金融界2024年12月28日消息，国家知识产权局信息显示，洛阳科创新材料股份有限公司取得一项名为“种锂电池负极材料碳化坩埚结构”的专利，授权公告号CN222211224U，申请日期为2024年1月。

金融界 2024-12-28

重庆市首届青少年无人机大赛在梁平举行

12月27日至28日，“童创空天・启智梁平”重庆市首届青少年无人机大赛暨青少年航空科技创新活动在梁平区举行。来自全市23个区县136所学校、1500余名青少年无人机爱好者齐聚于此同台竞技，逐梦空天新时代，启智梁平向未来。活动由重庆市体育局、重庆市教育委员会、梁平区人民政府联合主办。

上游新闻 2024-12-28

“生活在量子力学的世界里” 张朝阳将举办2025跨年演讲

12月31日，张朝阳2025跨年演讲即将来临。搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳将以“生活在量子力学的世界里”为主题，从微观视角解析我们存在的世界，和大家一起硬核跨年、共同迎接2025的到来。

雷递 2024-12-28

雷军最新发文：SU7全年交付量超13万台，小米汽车：累计智驾里程突破1亿公里

截至目前，小米SU7全年交付量已超过13万，已提前完成全年所有目标。新的一年，小米汽车工厂将持续提产，加快交付，保障将爱车早日交到您的手上。随后，雷军在新推文表示：我们任务从最早的7万，提高到10万，到12万，最后13万。作为汽车行业新人，SU7上市9个月，交付超过13万辆，绝对是奇迹！感谢大家支持！

每日经济新闻 2024-12-28

小米汽车：累计智驾里程已突破1亿公里，端到端即将开启先锋测试

IT之家12月28日消息，继宣布今年交付量超过30万台后，小米汽车官微今日发布了“年终总结”：目前销售门店已开业200家，覆盖全国58城市；研发投入超过130亿，专利授权超1000项；累计智驾里程突破1亿公里，端到端全场景智驾即将开启先锋测试。

IT之家 2024-12-28

医工融合能带来啥？3D打印定制眼镜、修复骨折，竟然还能……

12月20日-21日，由四川省卫生健康委员会和重庆市卫生健康委员会指导，四川省医院协会和重庆市社会医疗机构协会共同主办的“第二届成渝双城社会办医创新发展大会暨医务人员综合技能大赛”在成都召开，汇聚了成渝两地医疗智慧，共绘社会办医新蓝图。

封面新闻 2024-12-28

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

四大顶刊之一的《数学年刊》，正式接收北大袁新意独作论文。在困扰数学界多年的UniformBogomolov猜想问题上取得重要进展。值得一提的是，这篇论文还在预印版状态时就已获得一定引用，据称还在不同的学术会议中被讨论。

量子位 2024-12-28

重装系统的步骤与注意事项：解决电脑问题的实用指南

重装系统，这个话题对于许多人来说可能有些陌生，但其实在日常使用电脑的过程中，遇到系统问题或者想要提升性能的时候，重装系统都是个不错的选择。然后，选择你要安装的Windows版本，接着会进入许可协议的页面，勾选同意后点击“下一步”。

新报观察 2024-12-28

多样可扩展的开源项目———Devface榜单推荐：getomni-ai、tensorzero等

平台提供了一个动态的AI项目和贡献者目录，其中包含了大量的AI技术创新和开源项目，帮助开发者、研究人员和AI爱好者了解行业领先的AI开发者和最新的技术趋势。ominiai的自动化手动工作流程帮助不同行业节省了数百个小时，专为日常工作流程或大规模自动化而构建。

IT桔子 2024-12-28

嫦娥五号月球样品面向公众开放

钛媒体App12月28日消息，今天下午，“问月——中国探月工程嫦娥五号月球样品展”将在北京天文馆拉开帷幕。本次展览的核心展品是不同粒径的嫦娥五号月球样品，参观者可通过肉眼及显微镜“零距离”观看月壤。

钛媒体快报 2024-12-28

OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互

推荐体验

相关资讯

OpenAI发布全能模型GPT-4o！速度暴增支持实时音视频交互

OpenAI 首次推出 GPT-4o“全能”模型，干翻所有语音助手

OpenAI 震撼发布：GPT-4o免费，实时语音视频交互开启新纪元

OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出

OpenAI重磅发布GPT-4o：可实时语音视频交互，美剧《她》照进现实

近期资讯

洛阳科创新材料取得种锂电池负极材料碳化坩埚结构专利，能够降低氧气含量

重庆市首届青少年无人机大赛在梁平举行

“生活在量子力学的世界里” 张朝阳将举办2025跨年演讲

雷军最新发文：SU7全年交付量超13万台，小米汽车：累计智驾里程突破1亿公里

小米汽车：累计智驾里程已突破1亿公里，端到端即将开启先锋测试

医工融合能带来啥？3D打印定制眼镜、修复骨折，竟然还能……

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

重装系统的步骤与注意事项：解决电脑问题的实用指南

多样可扩展的开源项目———Devface榜单推荐：getomni-ai、tensorzero等

嫦娥五号月球样品面向公众开放

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

​OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互

OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互