OpenAI发布GPT-4o：像真人一样聊天可现场解答初中数学问题

作者：雷递发布时间：2024-05-15

雷递网乐天 5月15日

在Google I/O开发者大会公布AI产品前夕，OpenAI发布新一代AI模型GPT-4o，并将推出PC桌面版ChatGPT。

GPT-4o是OpenAI的新旗舰模型，可以实时对音频、视觉和文本进行推理。今天在API和 ChatGPT中推出文本和图像输入，并在未来几周内推出语音和视频。

据介绍，GPT-4o中的“o”是Omni的缩写。OpenAI称，GPT-4o是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间(opens in a new window)相似。

GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显著提高，同时API速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

在GPT-4o之前，用户可以使用语音模式与ChatGPT对话，平均延迟为2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。

为实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

OpenAI称，借助GPT-4o，用户可以跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

由于GPT-4o是OpenAI第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。

根据传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

OpenAI指出，GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o，并向 Plus 用户提供高达 5 倍的消息限制。我们将在未来几周内在 ChatGPT Plus 中推出新版语音模式GPT-4o 的alpha版。

据悉，GPT-4o已经可以实时会话语音，还可以进行多种语言的现场翻译，并像真人一样聊天。还可以根据用户需求，识别和模拟不同的情绪、语调进行输出。

GPT-4o还可以根据用户现场所写的数学算式，现场做出解答。

有评论称，这至少可以在一定程度上解放家长，因为以后可以让GPT-4o现场指导孩子如何做题。

———————————————

雷递由媒体人雷建平创办，若转载请写明来源。

OpenAI发布GPT-4o：像真人一样聊天可现场解答初中数学问题

推荐体验

相关资讯

实测！OpenAI发布GPT-4o 能像老师一样辅导孩子做数学题

OpenAI推出GPT-4o：已帮帮助学生解决数学问题

GPT-4o真如奥特曼所说像变魔术了一样

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

OpenAI发布GPT-4o 能辅导孩子数学题了！

近期资讯

有氧小气泡柔净不伤牙欧可林AirPump A10氧气啵啵冲牙器新品品鉴会举行

现代家庭音响设备连接指南：轻松享受高品质音效体验

“影像、AI 再进化” 2024智能手机年度总评榜揭晓

感受无人机魅力，马峦街道江岭社区带领青少年探索奇妙科学世界

量化巨头放大招！大模型性价比之王来了

上海重大部署！事关人工智能

“坚持做基础模型迭代的企业减少很多了” 大模型应用迫在眉睫，但“从量变到质变”仍面临三重挑战

AI正在“吸干”全球电力更可怕的事还在后面

贵州工商职业学院现场工程师班赴企业开展认知实习

光智科技：子公司安徽光智下属检测中心通过CNAS认证

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

OpenAI发布GPT-4o：像真人一样聊天 可现场解答初中数学问题

OpenAI发布GPT-4o：像真人一样聊天可现场解答初中数学问题