复旦教授张奇评谷歌、OpenAI新模型：推理能力没有本质突破，国内差距再拉大

作者：搜狐科技发布时间：2024-05-15

复旦谷歌 OpenAI ChatGPT

出品 | 搜狐科技

作者 | 梁昌均

杀疯了！震惊世界！一夜改变历史！在OpenAI推出有史以来最强大的模型GPT-4o后，这是它收获的不少赞誉。

反观谷歌今日凌晨发布的AI全家桶，外界似乎保持了“克制”，关注点纷纷落在谷歌如何反击OpenAI。“什么都有，但没有惊喜”，有评价称。

OpenAI似乎再次验证了“less is more”的法则，每次用单一产品就吸引到爆炸性的关注，ChatGPT、Sora、GPT-4o莫不如此。

这也意味着，以大模型为核心的AI技术仍在持续迭代，竞争依然激烈。只不过，技术演化的速度可能正在放缓。

复旦大学计算机科学技术学院教授、MOSS大模型核心人员张奇对搜狐科技表示，从整个原理上和架构上来说，GPT-4o没有特别大的突破，多模态的融合也是在预料之中，并没有超出预期。

同时他认为，这进一步验证了大模型技术迭代曲线正在放缓的趋势，无论是OpenAI，还是谷歌，推出的多模态融合模型在推理能力上都没有本质突破。

业内还有不少人都泼了盆冷水。“本来以来是核弹，却掏出了一堆摔炮。”猎豹移动董事长傅盛表示，GPT-5可能面临难产。

当然，不可否认GPT-4o在人机交互做出的革新。出门问问创始人李志飞就评价到，GPT-4o将成为万能的虚拟个人助理，人机交互将开启新一波革命。

但面对谷歌的全面“复仇”，OpenAI可能还需要拿出GPT-5等终极武器来应对，而国内的差距似乎又一次拉大了。

超过Siri等对话助手，推理能力无本质突破

在张奇看来，GPT-4o最重要的突破之一是多模态融合架构。他判断，这个架构采用了流式的语音和视频输入，在流式输入之后能够快速输出，使得整体响应延迟非常小，这是个很大的工程难题。

OpenAI首席技术官米拉·穆拉蒂 (Mira Murati)就表示，在API使用方面，相比去年11月发布的GPT-4-turbo，GPT-4o价格降低一半（50%），而速度提升两倍。

这其中效果最为明显的则是对音频的处理，GPT-4o可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，与人类的响应时间相似，远超此前ChatGPT语音模式对话的平均延迟时间（GPT-3.5为2.8秒，GPT-4为5.4秒）。

这背后的核心在于OpenAI跨文本、视觉和音频端到端地训练了一个新模型，使得所有输入和输出都由同一神经网络处理，从而大幅提高了响应速度，从而实现实时交互。

张奇介绍到，原来基于ChatGPT做语音交互，需先用语音识别转成文本（ASR），文本再给到模型，模型输出完结果后仍是文本，然后要把文本再转成语音（TTS）。“相当于至少有三个模型参与拼接在一起，中间不能流畅地串起来。”

端到端则省去了中间过程，在一个模型中直接输入语音信号，内置完成语音识别、语义回答，最后直接输出音频信号。这种端到端模式也已是自动驾驶的主流，用于提升从感知到决策的一体化效率。

谷歌此次发布的对标GPT-4o的Project Astra同样是多模态融合，从演示来看，其视觉识别和语音交互效果，跟GPT-4o不相上下。

“从架构上来说，Siri肯定不是端到端，使用的还是上一代的对话系统，比现在的ChatGPT的效果要差。所以从这种角度上来说，GPT-4o和谷歌最新的产品确实超越之前的对话系统。”张奇认为。

不过，他认为，从整个原理和架构上来说，GPT-4o并没有特别大的突破，整体升级不大。“从去年八九月份开始，就已经出现各种融合模型，多模态融合也被认为是大模型的发展趋势，因此GPT-4o并没有超出预期。”

张奇认为，GPT-4o和Project Astra的技术点差不多，都是多模态的混合模型，但依然都还不具备真正的推理能力，本质上并无突破。“用统一大模型去做，我觉得比较难。”

在张奇看来，AGI最核心的能力就是推理。尽管GPT-4o能够识别用户的语气、表情等，并可以调整说话语气和声音，但张奇表示，这本质还是统计机器学习的概率问题，通过数据训练就可以达到，并不能实现真正的推理。

“从它所有的demo展示来看，推理能力相较一年前发布的GPT-4并没有大幅度提升。如果真正能够完成一些推理，我觉得它应该会有更多的角度可以展示。”张奇表示。

李志飞也提到，GPT-4o的演示本身没有新的idea，过去十年很多人做过demo，但体验都是半吊子，demo很酷、用起来反人类，“本人做了十年，都已经绝望了”。

在GPT-4o发布后，很多观点都认为，类似电影《Her》或《流浪地球》中的MOSS的科幻场景正在加速实现。

“我觉得并没有大幅度推进这个过程，我更多看到了从数据出发的瓶颈，突破起来还是非常慢。”张奇说，这种demo很容易使得AI被过度宣传，然后过度解读。

技术迭代速度放缓，国内差距再次拉大

去年3月，OpenAI推出多模态大模型GPT-4，理解能力、可靠性和长文本技术能力全面增强，且具备图像处理。时隔一年推出的GPT-4o，在多项测试中达到或超过GPT-4 Turbo。

这背后恐怕也是不菲的投入，OpenAI官网上列出的GPT-4o相关贡献人员约有200人。“不断尝试不同的模型和各种融合方案，算力可能需要万卡集群，还有语音和图像等标注费用，整体投入可能需要10亿-15亿美金这种量级。”张奇判断。

他认为，这其中主要的难点在于多模态融合，包括每个模态如何进入到整体框架，融合之后还要调任务、做强化学习等，更多都是偏工程层面的工作，而且往往不会一次性成功，所以需要花费非常大的代价。

尽管投入很大，但张奇认为，GPT-4o在一定程度上验证了大模型技术迭代曲线正在放缓的趋势。金沙江创投主管合伙人朱啸虎对此持相同观点。

因此，张奇表示，GPT-5未来升级瓶颈会非常大，Sora等视频生成可能很难融入。“基于数据驱动的模式，把这些模态都融合在一起可能就到头了，后面可能就是小的升级。”

傅盛同样认为，如果不计成本的累参数，提高所谓的大模型能力，这条路肯定容易遇到困难，目前看起来GPT-5可能还要难产一段时间。

不过，在此次发布会前夕，OpenAICEO奥特曼在采访中透露，OpenAI计划在今年夏天推出更先进的GPT-5模型，并可能采用与以往不同的发布策略，但具体时间并未透露。

奥特曼认为，未来的AI发展不应是一场数据和算力的军备竞赛，真正的突破需要在算法效率、芯片性能、能源供给等方面取得根本性进展，而OpenAI期待在算法上实现重大创新，从而提高模型的运行效率。

但OpenAI可能需要优先解决当下的危机，其已面临一定的流量焦虑，在此前放开ChatGPT的账号限制后，此次则决定GPT-4o向用户免费开放。

朱啸虎认为，OpenAI开始卷免费，说明GPT的用户和收入增长已经碰到瓶颈，不是深度绑定大厂的模型公司基本已经出局。

对此，张奇也表示认同，OpenAI是想通过免费方式占领市场，如果增长放缓，就可能对未来的融资会有很大影响。

自去年下半年以来，ChatGPT的流量增长就趋于放缓，尚未恢复到去年5月时的高峰。更关键的是，从今年以来，OpenAI正在受到越来越多的挑战，包括谷歌、Meta，以及AI独角兽Anthropic、Mistral等都推出了越来越强大的模型。

对谷歌来说，搜索是其核心领地，而此前就有爆料称OpenAI将会推出AI搜索，那么这对谷歌来说将是巨大的威胁，这也是谷歌自去年以来不断追赶OpenAI的核心原因。

张奇认为，在美国市场，从文本和图像来看，OpenAI和其它竞争对手的差距已经不大。“谷歌现在跟OpenAI的距离应该很接近，至少在产品层面差不多了。”

对国内而言，OpenAI和谷歌最新的技术发布，意味着差距进一步扩大。“从整体来看，肯定差距又在拉大，而且是在多模态融合模型方面，流式的输入推理，国内至少现在没有看到，追肯定也是现在起步。”张奇说。

傅盛表示，OpenAI此次发布说明了应用在AI领域大有可为，每一个创业者都应该去好好地做AI应用，大模型的能力当然会不断地迭代，但最终能够把大模型用好的还是应用。

“GPT-4o让我对大模型真正渗透到生活的方方面面重新产生了信心。”李志飞也表示，它有望让人机交互这个“渣男”重新做人，开启下一波的科技、应用和商业模式的革命。

奥特曼在早前采访中提到，未来的AI设备应该始终在线、无缝连接，能够通过语音或文本等自然交互方式准确理解用户需求，并提供个性化的智能服务。显然，GPT-4o承载了OpenAI意图革新人机界面的目标。

不过，在张奇看来，目前大模型的通用性没那么强，目前单纯依赖于大模型的刚需很少，同时针对特定场景开发的成本非常高，导致目前大模型落地很难。

随着世界最先进的大模型们不断迭代，大模型落地的路径和节奏会被加快吗？至少现在来看，还需要等待。

近期资讯

还在为标致5008烧机油忧心？全新安全解法来袭，告别大修困扰！

入手17款1.6T标致5008车型后，它就如同一位忠实可靠的挚友，悄然融入我的生活，成为我每日出行不可或缺的陪伴。晨曦微露，城市尚在沉睡，它平稳地穿梭于寂静的街道；华灯初上，都市被霓虹点亮，它又载着我在喧嚣中驶向归途，无论风雨如何肆虐，它始终是我最安心的庇护所。起初，按照一万公里一保养的节奏，我和爱车一路顺遂，那些在网络上被频繁提及的烧机油问题，仿佛与我的座驾绝缘，从未有过一丝“侵袭”的迹象，这着实让我松了一口气，心底满是庆幸与欣慰。我用车场景比较单一，基本就是每日通勤。得益于出发早的习惯，清晨的道

无损修复烧机油 2024-12-27

达芬奇DaVinci Resolve 19.1.2 调色中文版（附安装包）

DaVinci Resolve Studio 是全球领先的视频编辑、色彩校正、视觉特效和音频后期制作软件。最新版本19.1.2不仅修复了多项性能问题，还引入了一系列令人振奋的新功能和优化。 [图片]剪辑与调色一体化：在同一平台上完成从剪辑到调色的全部工作，简化工作流程。多轨道时间线：支持多轨道编辑，提供灵活的时间线管理。智能工具：利用AI技术实现自动剪辑、场景检测等功能，提高工作效率。节点式色彩校正：提供专业的节点式色彩校正工具，支持复杂的色彩调整。3D跟踪与稳定化：通过先进的3D跟踪技术，确

办文绿软 2024-12-27

RFID电子标签的伴侣- -树脂基碳带

RFID 标签碳带主要用于在标签表面打印信息。它是一种特殊的打印耗材，当通过热转印打印机打印时，碳带中的油墨会在高温和压力的作用下转移到 RFID 标签的表面，从而实现文字、图案、条形码、二维码等信息的打印。这些打印的信息可以帮助更好地识别和管理带有 RFID 标签的物品。树脂碳带由聚酯薄膜基带、油墨层和背涂层组成。为碳带提供了物理支撑，使其能够顺利通过打印机的打印头。它具有良好的强度和韧性，能够承受打印过程中的张力和摩擦力。其中油墨层是碳带的核心部分，决定了打印质量和耐久性。油墨的成分根据不同的应用需求

条码刘帮主 2024-12-27

配备天玑9300+，柔光再升级，vivo S20 Pro有多强？

年底，手机市场上出现了一部高人气新机，它就是vivo S20 Pro。我也入手了一部，它采用的是东方人文美学设计理念，外观颜值超高，还带来了凤羽金等三种配色，我选择的是正是凤羽金配色，颜值上让人感觉很惊艳。经过实际上手体验，它还在其他方面给人带来了满意的体验，综合表现非常出色。直接来看看这款手机的影像拍摄表现，经过实测，它在逆光、广角、长焦、夜景等场景下的拍摄效果相当令人惊艳。下面的照片就是开启后置影棚级柔光环后、选择蝴蝶光拍摄所得，背景亮度虽然不够，但是专业补光的加持下，照片中的小姐姐整个人都非常清晰，

最醉科技 2024-12-27

非连续性文本阅读考点总结及答题技巧

一、知识概念所谓非连续性文本，是相对于以句子和段落组成的连续性文本而言的阅读材料，多以新闻类、评述类文本和统计图表、图画等形式呈现，试题围绕着同一个主题把相关的文字材料、图片、表格等相关材料组合在一起，要求考生通过阅读分析、比较研究，从中提取有效信息，并用简洁明了的语言表达出来。二、课标要求阅读由多种材料组合、较为复杂的非连续性文本，能领会文本的意思，得出有意义的结论。三、阅读要求了解各类非连续性文本的阅读要求。（1）对于文字类的文本，能关注标题、中心句、结构等，学会提取关键信息，概括文本内容，探究文本所

一儒语文 2024-12-27

二维码刷卡人脸识别人行通道闸机、车牌识别、道闸、访客、梯控、门禁构成智能出入口

门禁及楼宇可视对讲联动电梯梯控系统（又称电梯梯控联动门禁系统）组成： ①智能一卡通系统管理中心：标准门禁（含小区门禁与单元嵌入式门禁）和电梯门禁均在线运行（断网亦可智能脱机运行，网络通畅需自动上传进出记录数据不得丢失），出入口管理系统包括：车牌识别停车场管理系统、二维码刷卡人脸识别闸机、访客机、单元门禁（不含楼宇可视对讲系统）和电梯门禁，硬件软件平台必须采用同一品牌，达到管理一卡通、使用一卡通、一卡一库一软件共用同一平台；门禁系统的管理中心设置在小区的物管中心。管理中心主要包括：门禁一卡通服务器（如需纯

多奥科技 2024-12-27

供应链质量管理到底是什么？

质量管理是指产品和服务在交付过程中的质量统筹规划、组织协同、执行控制、持续改进等一系列活动，以达成满足客户需求，赢得客户订单的经营目标。持续交付满足质量标准，尤其是客户期望质量标准的能力是企业核心竞争力之一，是企业基业长青的基础。要做好质量管理，企业需要在质量方针、质量目标指导下的持续改善机制，这个机制就是PDCA(Plan计划-Do实施-Check检查-Action行动)闭环循环。质量方针、质量目标是企业质量管理战略的核心。质量方针(Quality Policy)是企业经营方针的重要组成部分，是企业

优链智达 2024-12-27

小红书虚拟电商选品专栏课：助虚拟电商创业者打开选品视野，突破选品瓶颈。

这一路走来，我自认为不管是运营技术，团队管理，资金人脉，供应链等各个方面，我都没比别人强到哪里去，我唯一引以自豪的就是我的选品能力。我很擅长选品，我特别喜欢选品，这几年，我也带过上千位学员，看过我课程，听过我直播讲课的小伙伴就知道，不管是淘宝实物蓝海，还是淘宝虚拟，还是拼多多虚拟，还是小红书虚拟，我讲的重点，都是选品。我一直把选品作为课程的重中之重，为什么?因为我始终觉得：选品大于运营，选品不对，努力白费。选品就是选赛道，好赛道=轻松赚钱。选品就是省时间省成本。选品就是增加赚钱概率，让我们更轻松的出单挣钱

凌零创业网_2025 2024-12-27

关于无人机你需要了解的十个知识

无人驾驶飞机简称“无人机”，英文缩写为“UAV”，利用遥控设备和自备程序控制装置操纵或者由机载计算机自主操作，可重复使用的不载人飞机。01、无人机是什么无人机是无人驾驶飞行器的统称。与传统飞机相比，无人机有着：体积小、成本低、省人力、易操作等优点，广泛使用于众多领域。（图：技术人员正在测试无人机图源：大疆农业官网）02、无人机的类型无人机按应用领域，种类分为：军用级和民用的消费级、工业级无人机。在军用方面则分为靶机、侦察机、通讯机等。通过无人机的外形也可将其分为：固定翼、多旋翼、伞翼、无人飞艇、扑翼以及

你好低空 2024-12-27

年前买豪车，进口车国产的价格全国免费调拨！

进口车在二手车里并不能得到真正的溢价，相反往往更凸显出它的性价比。今天给大家盘几台高性价比的豪华进口车，年前想买台豪华车的，这三台绝对是不错的选择，我们在售千台车源，全国免费调拨，喜欢的欢迎前来澳康达鉴赏。2020款奥迪A6 Avant 先锋派 45 TFSI 臻选动感型买奥迪A6旅行版的客户注定是感性浪漫的个性，更追求生活的美好以及设计的美感，他们意识到生活不止有2.0T加quattro全时四驱的硬核，也应该存在瓦罐车身，大储物空间周末出游写意放松的时刻，这台仅行驶了3万公里的A6 Avant正是为了

澳康达二手车 2024-12-27

复旦教授张奇评谷歌、OpenAI新模型：推理能力没有本质突破，国内差距再拉大

推荐体验

相关资讯

复旦教授肖仰华：我们与OpenAI的差距正在拉大

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性

复旦教授肖仰华：我们与OpenAI的差距正在拉大！聪明人太多，总想抄近路【附AIGC产业竞争分析】

对话复旦教授张军平：OpenAI封管行为或是对国内大模型的封堵，禁套壳、禁学习

OpenAI 新大模型，推理能力近人类水平！

近期资讯

还在为标致5008烧机油忧心？全新安全解法来袭，告别大修困扰！

达芬奇DaVinci Resolve 19.1.2 调色中文版（附安装包）

RFID电子标签的伴侣- -树脂基碳带

配备天玑9300+，柔光再升级，vivo S20 Pro有多强？

非连续性文本阅读考点总结及答题技巧

二维码刷卡人脸识别人行通道闸机、车牌识别、道闸、访客、梯控、门禁构成智能出入口

供应链质量管理到底是什么？

小红书虚拟电商选品专栏课：助虚拟电商创业者打开选品视野，突破选品瓶颈。

关于无人机你需要了解的十个知识

年前买豪车，进口车国产的价格全国免费调拨！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响