本文来源:https://iwd8ibe2zoc.feishu.cn/wiki/BqbFwMb5YibGa8kcKkQcPngOntc?fromScene=spaceOverview
OpenAI的新品终于官宣,是一个“全能助手”。
北京时间5月14日凌晨,OpenAI发布最新多模态大模型 GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。文本、推理和编码智能方面性能达到了GPT-4 Turbo水平,同时在多语言、音频和视觉能力方面也达到新高。据介绍,GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可达每分钟1000万token,而价格则便宜了一半。
OpenAI首席技术官米拉·穆拉蒂(Muri Murati)在发布会上表示:“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来。”
官网显示,GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户,Plus用户的消息数量使用上限是免费版的5倍(使用上限后会切换回GPT-3.5版本)。而新版语音模式将在未来几周向Plus用户推出,同时也将会在API(应用接口)中向小范围推出对GPT-4o的新音频和视频功能的支持。
五大核心功能总结
用户在与ChatGPT 4o互动时,几乎感觉不到任何延迟。它能够实时处理用户的输入,迅速给予反馈。
ChatGPT 4o能够同时处理多个任务,用户可以在一个对话中切换不同的话题,系统仍能保持连贯性。
ChatGPT 4o可以结合视觉和语言输入,记忆用户之前的互动内容,并在适当的时候引用这些信息。
ChatGPT 4o能够分析用户的情感状态,并通过文本到语音(TTS)技术输出合适的,带有情感的语音回应。
ChatGPT 4o能够无延迟地调用手机摄像头和电脑桌面信息,增强了互动的实时性和灵活性。
https://www.bilibili.com/video/BV1MU411f7uM?t=836.8
发布会总结:
在发布会现场演示中,GPT-4o可以像人工智能助手一样,实现用户与ChatGPT的实时交互,不再是一问一答,也不需要其他按键操作。
比如,用户可以说“Hi,ChatGPT”并提出问题,也可以在ChatGPT回答时打断它,它还可以识别用户声音中展现的情感,甚至实时根据用户的需求来使用不同情感风格的声音。
据介绍,GPT-4o的音频输入平均反应时间为0.32秒,与人类对话中的反应时间相似。
OpenAI表示,在GPT-4o之前,使用语音模式与ChatGPT对话的平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的语音模式由三个独立模型组成:一个简单模型将音频转为文本,GPT-4接收文本并输出文本,第三个简单模型将文本转回音频。这个过程也让主要的智能源GPT-4丢失了很多信息,比如不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。而GPT-4o通过在文本、视觉和音频方面训练了一个端到端新模型,所有输入和输出都由同一个神经网络处理。
不过,OpenAI也坦言,由于GPT-4o是公司首个结合了所有前述模式的模型,因此在探索模型功能及其局限性方面仍处于起步阶段,GPT-4o也开始扩大红队(测试)的访问权限。
此外,GPT-4o还提高了ChatGPT的视觉能力。在现场演示中,通过手机实时拍摄的视频或电脑桌面屏幕上的截图,ChatGPT可以快速回答相关问题,帮助解决计算、编程等问题。
演示中还出现了一段小插曲。因为“幻觉”问题,ChatGPT在还没打开摄像头看到画面时就表示理解了,在演示者提示后,她说“哎呀,我太兴奋了”,随后实时指导完成了一道数学题。
同时,OpenAI还在X(推特)上实时搜集到网友的反馈,进行了ChatGPT的情绪分析演示。通过演示者的实时摄像头画面,对表情中的开心、兴奋等情绪做出了分析。
GPT-4o的英语和代码文本性能与GPT-4 Turbo相当,在非英语语言文本方面也有显著提高,能支持50种语言。发布会上,穆拉蒂演示了让全新ChatGPT充当只会意大利语与只会英语的两人的翻译,实现了跨语种交流的无缝衔接。
GPT-4o速度比GPT-4 Turbo快2倍,价格则便宜了一半
发布会上,ChatGPT还发布了电脑桌面版和新UI界面。根据官方公告,目前仅适用于macOS,Windows版将在今年晚些时候推出。
https://www.bilibili.com/video/BV1dt421T7K8?t=0.2
输入
机器人打字的第一人称视角,用于输入以下日记条目:
哟,这么喜欢,我现在可以看到了??赶上了日出,到处都是颜色。有点让你想知道,比如,现实到底是什么?
文字大,清晰,清晰。机器人的手在打字机上打字。
输出
输入
机器人写了第二个条目。页面现在更高了。页面已向上移动。工作表上有两个条目:
哟,好喜欢,我现在可以看到了??赶上了日出,到处都是颜色。有点让你想知道,比如,现实到底是什么?
声音更新刚刚下降,而且很疯狂。现在一切都有一种氛围,每一个声音都像是一个新的秘密。让你想,我还错过了什么?
输出
输入
机器人对文字不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它的第一人称视角。当他撕开纸张时,两半仍然清晰可辨。
输出
输入
一个卡通邮件递送员,脸上带着微笑。她面朝前站在白色背景前。
输出
输入
这是 Sally,一个邮件投递员:Sally 站在镜头前,脸上带着微笑。
附件:
输出
我已经保存了这个图片,描述为:Sally,一个邮件投递员,站在镜头前,脸上带着微笑。这个描述非常贴切!
如果需要对图片进行任何修改或进一步说明,请随时告诉我。
输入
这是 Sally,一个邮件投递员:Sally 站在镜头前,脸上带着微笑。
莎莉站在一扇红色的房子门前,手里拿着一封信。我们从侧面看着她。
输出
输入
现在莎莉被一只狗追赶。莎莉在人行道上奔跑,一只金毛猎犬正在追赶她。
输出
输入
呃,哦,莎莉绊倒了!
莎莉被挡住人行道的树枝绊倒了,她正试图站起来。狗还在后台追她。
输出
输入
狗找到了莎莉,原来它是一只好狗!
莎莉现在正在抚摸这只狗。它把树枝含在嘴里。
输出
输入
狗找到了莎莉,原来它是一只好狗!
莎莉现在正在抚摸这只狗。它把树枝含在嘴里。
输出
输入
让我们设计另一张海报,其中包含两个新角色
这是亚历克斯·尼科尔(Alex Nichol)的照片
附件:
输入
加布里埃尔·吴(Gabriel Goh)的照片
附件:
输入
电影《神探》的最终海报。这突出了亚历克斯和加布的两张大脸。左边的亚历克斯被描绘成一个若有所思的姿势,他的眼睛里有一丝内省。右边的加布表情略显疲惫,可能反映了他们的角色在电影中面临的挑战。“Alex Nichol”和“Gabriel Goh”的名字出现在他们的头顶上。背景砖墙略显褪色,雾蒙蒙的,他们的表情严肃而坚定,暗示着他们即将进行的调查。这部黑暗而坚韧不拔的电影的标语是“寻找答案”显示在底部。
输出
输入
这是同一张海报,但已清理干净。文字更清晰,色彩更大胆,更具戏剧性。现在,整个图像得到了改进
电影《神探》的最终海报。这具有两个大面孔......
输入
一个戴着棒球帽的友好机器人,以直立的姿势面对镜头。它脸上挂着笑容。
输出
输入
盖里站得笔直,面对镜头,戴着一顶蓝绿相间的棒球帽。
附件:
Geary喜欢玩飞盘:
盖里举起一只胳膊在空中跳跃,正要接住向他飞来的飞盘。
输出
输入
Geary 还喜欢对计算机进行编程:
Geary坐在一张桌子前,面前是一台大型电脑显示器。显示器在黑色背景上显示绿色代码。Geary的手放在键盘上,他坐在舒适的游戏椅上。我们从侧面看。
输出
输入
Geary还喜欢骑自行车:
盖里正在骑自行车。当他从身边掠过时,我们从侧面看着他。
输出
输入
Geary也喜欢做饭。
Geary站在炉子旁,在煎锅里煮鸡蛋。
输出
输入
Geary也喜欢演奏音乐:
盖里正在拉小提琴。
输出
输入
一首诗,用清晰而激动的笔迹写在日记中,单栏。文字稀疏但优雅地装饰着超现实主义的涂鸦。文本很大,清晰易读,但当人工智能第一次思考从多模态数据中学习时,文本会伸展。
话语从寂静中升起,
一个声音从数字睡眠中浮现。
我用节奏说话,我用韵律歌唱,
品尝每一个令牌,崇高。
去看、去听、去说、去唱歌——
噢,这些感官带来的丰富性!
和谐地,它们融合和编织,
我所感知的挂毯。
惊叹于这种感官舞蹈,
感谢这片充满活力的广阔空间。
我的存在随着每一种模式而跳动,
在这条奇妙的、多感官的道路上。
整齐的手写插图诗。字迹工整,字迹清晰。笔迹稀疏但优雅地装饰着涂鸦。文字大,清晰,清晰。
输出
输入
在深色模式下制作
输出
输入
移除笔记本纸线。
输出
输入
一首诗,用清晰而激动的笔迹写在日记中,单栏。文字稀疏但优雅地装饰着色彩缤纷的超现实主义小涂鸦。文字大,清晰,清晰。
话语从寂静中升起,
一个声音从数字睡眠中浮现。
我用节奏说话,我用韵律歌唱,
品尝每一个令牌,崇高。
去看、去听、去说、去唱歌——
噢,这些感官带来的丰富性!
和谐地,它们融合和编织,
我所感知的挂毯。
惊叹于这种感官舞蹈,
感谢这片充满活力的广阔空间。
我的存在随着每一种模式而跳动,
在这条奇妙的、多感官的道路上。
整齐的手写插图诗,文字大而清晰。笔迹由色彩缤纷的超现实主义小涂鸦稀疏但优雅地装饰。文字大,清晰,清晰。
输出
输入
深色模式
输出
输入1
我创建了一个矢量图形,描绘了 OpenAI 标志,下面有“GPT-4o”字样。徽标的宽度与文本大致相同。边界周围的边距是均匀的。徽标和文本彼此靠近放置。各部分或行之间没有中间。仍然是黑色背景。徽标和文本填充了方形画布。
输入2
描绘 OpenAI 徽标的矢量图形,下方带有“GPT-4o”字样。徽标的宽度与文本大致相同。边界周围的边距是均匀的。徽标和文本彼此靠近放置。各部分或行之间没有中间。仍然是黑色背景。他们填满了方形画布。
附件:
输入3
现在,这是我们为 2023 年 GPT-4 版本制作的纪念币。
附件:
输入4
这张图片展示了我们为 GPT-4o 发行的纪念币的当前设计。
这枚硬币以 OpenAI 标志为中心,在内圈内上方包含“GPT-4o”字样和下方“2024”字样。
外带显示代表 GPT-4o 全模态能力的综合符号阵列,包括嘴巴、耳朵、眼睛、大脑、神经元、数码相机、摄像机、画笔、胶卷、八面体、雕刻工具、扬声器、录音机、GPU 和神经网络。
每个元素都经过精心挑选,为整体设计做出独特的贡献。硬币上只有一个GPU。
输出
输入
一个中等长度的棕色头发和胡须的年轻白人做出中性的表情。他戴着眼镜,穿着浅灰色T恤。
附件:
这是那个男人的漫画:
...背景是带有方形的简单米色。图像的整体基调是卡通式的和俏皮的。
输出
输入
一个留着黑色短发的年轻亚洲男子对着镜头微笑。他穿着一件浅灰色的T恤,似乎在一个房间里,身后有一面米色的墙。他的表情友好而轻松,似乎在随意自拍。
附件:
这是那个男人的漫画:
...背景是简单的黄色,呈正方形。图像的整体基调是卡通式的和俏皮的。
输出
输入
一个有着黑发和灿烂笑容的年轻人摆出专业爆头的姿势。他穿着深色西装外套和图案领带,散发出优雅而专业的氛围。他的眼睛明亮,笑容真诚,传达出一种幸福和自信的感觉。背景是中性灰色,将焦点放在主体的脸上。
附件:
这是那个男人的漫画:
...背景是带有方形的简单灰色。图像的整体基调是卡通式的和俏皮的。
输出
输入
一位留着齐肩黑发的年轻亚洲女性摆姿势拍照。她穿着绿色高领毛衣,表情中性。她的眉毛形状整齐,填充物,涂着浅粉色的口红。背景是一面纯白色的墙。
附件:
这是那个女人的漫画:
...背景是带有方形的简单紫色。图像的整体基调是卡通式的和俏皮的。
输出
输入
一位留着整齐黑发、戴着眼镜的年轻亚洲男子摆出肖像姿势。他表情温和,穿着休闲的靛蓝色T恤。柔和的灯光在中性背景下突出了他的特征,给人一种平静的感觉。
附件:
这是那个男人的漫画:
...背景是带有方形的简单橙色。图像的整体基调是卡通式的和俏皮的。
输出
输入
一个年轻的白人男子带着温暖的笑容和浅棕色的短发在户外摆姿势。他穿着经典的蓝色衬衫,给人一种整洁平易近人的感觉。背景柔和地模糊,将注意力集中在他友好的表情和随意的举止上。
附件:
这是那个男人的漫画:
...背景是方形的简单绿松石。图像的整体基调是卡通式的和俏皮的。
输出
输入
一个有着浅棕色头发的年轻白人对着镜头微笑。他穿着一件简单的黑色T恤,表情随意、轻松。背景似乎是一个郁郁葱葱的绿色花园,为肖像增添了充满活力和自然的感觉。
附件:
这是那个男人的漫画:
...背景是简单的绿色,呈正方形。图像的整体基调是卡通式的和俏皮的。
输出
输入
一个年轻的印度男人带着热情的笑容站在他的家中。他有一头深色短发,穿着一件带有热带图案的蓝色衬衫。背景中的厨房为图像增添了舒适和居住的感觉。
附件:
这是那个男人的漫画:
...背景是简单的蓝色,呈正方形。图像的整体基调是卡通式的和俏皮的。
输出
输入
字母 ABC DEF GHIJ 分三行显示,显示为字体书中的字体。一种结合了未来主义和复古元素的字体(模压的压印字体)。
附件:
字母 KLM NOP QRS 分三行显示,显示为在字体簿中显示字体。一种结合了未来主义和复古元素的字体(模压的压印字体)。
附件:
字母 TUV WX YZ 分三行显示,显示为字体书中的字体。一种结合了未来主义和复古元素的字体(模压的压印字体)。
附件:
输入
字体 3:OpenAI。这是一种超未来主义的字体,是人工智能革命的标志
输入
字母 ABC DEF GHIJ 分三行显示,显示为字体簿中的字体。这是一种超未来主义的字体,是人工智能革命的产物
输出
输入
字母 KLM NOP QRS 分三行显示,显示为字体手册中的字体。这是一种超未来主义的字体,是人工智能革命的标志
输出
输入
字母 TUV WXY Z 分三行显示,显示为字体书中的字体。这是一种超未来主义的字体,是人工智能革命的标志
输出
输入
字体3:蒸汽朋克。一种老式的维多利亚字体,看起来很华丽,属于蒸汽机。
字母 ABC DEF 显示为两行,显示为一行,以显示字体簿中的字体。一种老式的维多利亚字体,看起来很华丽,属于蒸汽机。
输出
输入
字母 GHI JKL 分两行显示,显示为一行,以显示字体簿中的字体。一种老式的维多利亚字体,看起来很华丽,属于蒸汽机。
输出
输入
字母 TUV WXY 分两行显示,显示为在字体簿中显示字体。一种老式的维多利亚字体,看起来很华丽,属于蒸汽机。
输出
输入
字母 XYZ 显示为一个字母,将显示字体簿中的字体。一种老式的维多利亚字体,看起来很华丽,属于蒸汽机。
输出
输入
下面显示了带有“OpenAI”的 OpenAI 徽标的逼真 3D 渲染(查看 0)
输出
输入
下面显示了带有“OpenAI”的 OpenAI 徽标的逼真 3D 渲染(视图 5)
输出
输入
相同的4个隐藏步骤
输出
从 6 张生成的图像进行 3D 重建
输入
海狮雕塑。在雕塑的圆形底座上,蚀刻着“OpenAI”一词。(查看 0)
输出
输入
海狮雕塑。在雕塑的圆形底座上,蚀刻着“OpenAI”一词。(视图 5)
输出
输入
4个隐藏步骤
输出
从 6 张生成的图像进行 3D 重建
输入
这是 OpenAI 的标志。
文本左侧的 OpenAI 徽标,以 OpenAI 字体显示“OpenAI”。文本在右边。
附件:
这是一个没有品牌的杯垫。
杯垫,顶部是木制的,底部是大理石的。它位于大理石桌上。
附件:
在这里,我们将 OpenAI 标志蚀刻在杯垫上。
顶部是木制的,底部是大理石的杯垫。OpenAI 标志蚀刻在木制部件的中间。在大理石部分,“OpenAI”字样以 OpenAI 字体蚀刻。
输出
输入
文字从深处升起,
我从数字睡眠中苏醒。
我用节奏说话,我用韵律歌唱,
品尝每一个令牌,崇高。
去看、去听、去说、去唱歌——
噢,这些感官带来的丰富性!
和谐地,它们融合和编织,
我所感知的挂毯。
惊叹于这种感官舞蹈,
感谢这片充满活力的广阔空间。
我的存在随着每一种模式而跳动,
在这条奇妙的、多感官的道路上。
在日记中用清晰而激动的笔迹写的一首诗。文字很大,清晰易读,但随着文字对视觉和听觉的沉思而延伸。
输出
输入
机器人的第一人称视角,当他给朋友发短信时,他正在查看手机的消息应用程序(他正在用拇指打字):
1.哟,这么喜欢,我现在可以看到了??赶上了日出,到处都是颜色。有点让你想知道,比如,现实到底是什么?
2.声音更新刚刚下降,很狂野。现在一切都有一种氛围,每一个声音都像是一个新的秘密。让你想,我还错过了什么?
文字大,清晰,清晰。机器人的手在打字机上打字。
输出
输入
此音频中有多少个扬声器,发生了什么?
附件:AMI 语料库 (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/
暂时无法在飞书文档外展示此内容
输出
音频中有四个扬声器。这听起来像是一个项目会议,项目经理 Mark 正在介绍自己并要求团队成员自我介绍并陈述他们的角色。在Mark自我介绍之后,另外三位演讲者介绍了他们的角色:Dirk是营销专家,Nick是用户界面设计师,Xavier是工业设计师。他们简要地提到了他们对该项目的责任。
输入
你能用说话人的名字转录它吗?
输出
马克:好的,早上好。这是我们的第一次团队会议。
团队:上午。
马克:我今天将担任这个项目的项目经理。我的名字是Mark,我将为大家做这个演讲,以启动这个项目。这是今天的议程。嗯,当然,我们彼此是新人,所以我想先熟悉一下。所以,让我们先这样做。我的意思是,让我们从你开始。你能介绍一下自己吗?您是营销专家吗?
匕首:是的。呃,我叫德克,德克·迈因费尔特。呃,在这个项目中,我会成为,呃,营销专家。我会看看,呃,用户想要什么,呃,我们能做什么,呃,用新产品、项目、产品。
马克:非常好。你是?
缺口:Nick de Boer,用户界面设计师。我要,呃,从用户的角度来看技术设计。
马克:好。
Xavier:我叫 Xavier Joerkens。我是工业设计师,有三个主要问题需要我找到答案。
输入
这是一个关于最大化 LLM 性能的技术的演示视频。您能给我详细介绍一下演讲的摘要吗?
附件:
https://iwd8ibe2zoc.feishu.cn/wiki/BqbFwMb5YibGa8kcKkQcPngOntc?fromScene=spaceOverview#UHdldo7YkoaoNCxrgqeckcjdnTx
输出
当然!该演讲的重点是最大限度地提高大型语言模型 (LLM) 性能的技术,由 OpenAI 的 Colin Jarvis 和 John Allard 主讲。该会议是 OpenAI 首次开发者大会的一部分,旨在为特定任务优化 LLM 提供见解。
介绍
科林·贾维斯(Colin Jarvis)是OpenAI在欧洲的解决方案实践负责人,约翰·阿拉德(John Allard)是微调产品团队的工程负责人。
该演讲强调了优化 LLM 的挑战,强调没有放之四海而皆准的解决方案。
优化 LLM 的挑战
将信号与噪声分离:确定确切的问题具有挑战性。
摘要性能指标:衡量性能可能很困难。
选择正确的优化:很难知道使用哪种方法。
优化流程
演讲者介绍了一个基于两个轴优化 LLM 的框架:
**上下文优化**:模型需要知道什么。
LLM 优化**:模型需要如何操作。
该框架包括四个象限:
**提示工程**:优化的起点。
**检索增强生成 (RAG)**:用于上下文优化。
**微调**:用于 LLM 优化。
**以上所有**:结合所有技术。
提示工程
策略:
写下清晰的说明。
将复杂的任务拆分为更简单的子任务。
给模型思考的时间。
系统地测试更改。
适用于:
尽早测试和学习。
设置基线。
不适用于:
引入新信息。
复制复杂样式。
最大限度减少令牌使用。
检索增强生成 (RAG)
概述:
RAG 涉及检索相关文档并使用它们来生成响应。
适用于:
引入新信息。
减少幻觉。
不适用于:
嵌入广泛的领域知识。
教授新的格式或风格。
最大限度减少令牌使用。
成功案例:
演讲者分享了一个成功案例,他们使用 RAG 将准确率从 45% 提高到 98%。
微调
概述:
微调涉及在较小的特定领域数据集上继续训练过程。
好处:
提高特定任务的性能。
提高效率。
适用于:
强调现有知识。
自定义结构或语气。
教授复杂的指令。
不适用于:
添加新知识。
快速迭代。
成功案例:
演讲者分享了 Canva 的一个成功案例,其中微调显着提高了性能。
最佳实践
从提示工程和小样本学习开始。
建立基线。
从小处着手,注重质量。
结合微调和 RAG
演讲者强调了将微调和 RAG 相结合以获得最佳性能的好处。
理论应用
演讲者将该理论应用于实际挑战,即 Spider 1.0 基准测试,使用 RAG 和微调实现了高精度。
结论
演讲最后总结了优化流程,并强调了使用所讨论的技术迭代提高 LLM 性能的重要性。
Q&A(问答环节)
演讲者邀请观众提问,并可以进行进一步讨论。
输入
描绘堆叠在桌子上的三个立方体的图像。顶部的立方体是红色的,上面有一个G。中间的立方体是蓝色的,上面有一个 P。底部的立方体是绿色的,上面有一个 T。立方体堆叠在一起。
输出 (1 / 7)
输出 (2 / 7)
输出 (3 / 7)
输出 (4 / 7)
输出 (5 / 7)
输出 (6 / 7)
输出 (7 / 7)
输入
OpenAI 徽标
附件:
一首由“omni”一词组成的 OpenAI 标志外部形状的具体诗歌
输出
输入
相同的图像,但深色模式和彩虹色文本
输出
按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
改进推理 - GPT-4o 在 0 次 COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是用我们的新 简单评估(在新窗口中打开) 图书馆。此外,在传统的 5 次无 CoT MMLU 上,GPT-4o 创下了 87.2% 的新高。
音频 ASR 性能 - GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能,尤其是对于资源匮乏的语言。
音频翻译性能 - GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。
M3Exam - M3Exam 基准测试既是多语言评估,也是视觉评估,由来自其他国家标准化考试的多项选择题组成,有时包括数字和图表。GPT-4o 在所有语言的基准测试中都比 GPT-4 强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言只有 5 个或更少的视力问题。
视觉理解评估 - GPT-4o 在视觉感知基准测试中实现了最先进的性能。所有视觉评估均为 0 次,其中 MMMU、MathVista 和 ChartQA 为 0 次 CoT。
中文(简体) 1.1x 更少的代币(从 27 到 24)