大模型悄然分化发展
2024年的日历渐渐翻至最后一页,这一年中,我们见证了AI行业诸多令人兴奋,却又有些坎坷的进步。
从跳票一年终亮相的Sora,到o3掀开推理侧大发展的序幕,以及DeepSeek V3带来的惊喜与争议,这一切的繁荣,似乎让人觉得AGI似乎就在不远的前方。
然而,另一方面,大模型商业化、落地的困境,却仍旧没有得到解决,众人期待中的SuperApp,也还是没有出现。
与此同时,近乎耗尽的训练数据,以及Scaling Law 即将“撞墙”的传闻,也不由让人对AI的远大前景产生了一丝隐忧。
今天,在2024行将结束之际,就让我们一一盘点今年AI行业的几大主要进展及趋势,并通过5个核心问题,探寻2025年大模型走向何方?
当有人质疑本次的AI革命,是否会重蹈前两次革命失败的覆辙时,Scaling Law总能让人拾起信心。
因为它让当前的AI,找到了一种基于“数据-规模-能力”的正向循环系统。这也是AI实现持续进化的根本所在。
然而,这个让奇迹不断涌现的“黄金定律”,今年似乎不再那么灵了。
今年11月,The Information的一份独家爆料声称,GPT系列模型改进缓慢,下一代旗舰模型Orion并不像前代实现巨大的飞跃。
这篇文章直击OpenAI痛点,提出Scaling Law逐渐放缓,原因之一是高质量文本数据越来越少。
此文一出,AI圈立刻炸了锅,众人对LLM能否通向AGI的质疑声此起彼伏。
然而,没过多久,OpenAI研究员Adam称,Scaling刚刚找到了另一套「齿轮」!o1系列模型scaling的两个重要维度——训练时间和测试(推理)时间。
一时间,Scaling的定义似乎悄然发生了改变,在这个新的维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。
于是,以o1为代表的,一批试着以“深度推理”改变Scaling范式的大模型纷纷涌现了出来。
例如,DeepSeek (深度求索)推出了 R1-Lite ;Kimi(月之暗面)推出了主打数学能力的推理能力强化模型 k0-math;阿里先后推出 Marco-o1、QwQ 两款推理模型;昆仑万维推出了 Skywork o1 。
在具备深度推理能力后,大模型的自我反思、学习能力提升明显。
在OpenAI和智谱给出的“通往AGI五阶段”的定义中,二者均将多模态和大语言模型能力归在L1阶段,也就是最为基础的能力配备。而o1的出现,则标志着大模型能力突破到了L2阶段。
国产选手里,确实有不少深度推理类大模型,在推理链上做了不少功夫,例如R1-Lite这类大模型,在处理复杂问题时,思路展示得特别详细清晰。
差距最明显的地方,说白了就是"深度"和"连贯性"。
拿数学题来说,DeepSeek-R1-Lite、K0-math这类模型,面对长链路推理时,模型思维链有时会失败,会承认超出能力范围,但也会陷入死循环状态。相较之下,o1却能一口气推导出8-10个步骤,而且每步都严丝合缝。
12天春晚发布的o3,进化幅度更是夸张。从 0% 到o1的 5%,整整花了五年的时间;从o1的 5% 到o3的 87.5%,只花了半年。
GPT 5迟迟不能出现的情况下,大模型在推理侧疯狂生长。
如果要为2024年的大模型,找一个最耀眼的类别,那这样的桂冠,或许非视频生成类大模型莫属。
在2024年2月初,OpenAI推出的文生视频模型Sora,以惊艳的表现震撼了全球科技圈。凭借通过文字生成高清、流畅视频的能力,AI让人们看到了“一键生成万千世界”的可能。
当时业内甚至有人认为,其对现实物理规律的模拟能力,是打造“世界模型”,并让人类最终通往AGI的途径之一。
“Sora类”模型突破的背后,则是DiT(Diffusion Transformer)架构的创新。
DiT架构赋予Sora等视频生成模型前所未有的时间—空间建模能力,通过将扩散模型的去噪机制与Transformer的动态特性结合,提升了视频生成的连贯性和灵活性,使其能够高效生成长时序、高分辨率且视觉一致的视频内容。
从字节跳动的“即梦”到快手的“可灵”,再到智谱的“清影”,以及后来MinMax的海螺AI,都代表了国产文生视频技术在这一年迅速发展。
在众人对Sora望眼欲穿的日子里,可灵凭借2分钟、1080P、每秒30帧的高规格视频生成能力,满足了人们对文生视频AI最大的渴望。
然而,兴奋之余,务实的人们却发现,大模型商业化的困境,却没有随着文生视频类AI的“奇迹”迎刃而解。
虽然在2024年,《山海奇镜》等AI短剧的出现,似乎为这一赛道增添了几分光彩。
然而,这种由少数专业团队支撑起来的“奇观”,影响仍局限在业内的小范围。
高昂的生成成本、不稳定的输出质量,以及有限的应用场景,共同构成了阻碍文生视频AI大规模商业化的重重屏障。
据业内调研显示,目前5秒左右的高质量AI视频生成成本约为1-3元,但由于AI生成的不稳定性,创作者往需要反复生成,才能得到满意的结果。例如《白骨精前传》的AI短剧作者Danny,就花了五六千块。
这一成本,仍然令普通的C端用户望而却步。
同时,一种AI版的“恐怖谷”效应,也成了除了直接的技术外,阻碍AI视频被大众接受的“工艺”问题。
好在2024年,尚显稚嫩的视频AI,仍在蹒跚学步,但12月份Sora的正式发布,以及可灵1.6和Google Veo 2给这一片惆怅的灰色中,增加了一抹新的色彩。
在12月的“12 Days of OpenAI”活动期间,OpenAI终于宣布推出“鸽”了10个月之久的Sora模型,相比于早期版本,Sora Turbo的生成效率大幅提升。
Sora在模型端的表现并不令人惊喜,甚至比国产的没有表现更好。但其对视频的可编辑性,对Sora类工具走向实际应用的产品化,迈出了重要一步。
这样的收尾,总算是给不太圆满的视频AI,在年末画上了一个振奋人心的句号。
回望2024年AI编程领域的变化,一个最瞩目的问题是:AI真的会取代程序员吗?
2024年,随着 AI编程领域开始从Copilot向Agent转型,对专业开发者而言,AI将逐步承担代码测试、审查和迁移等重复性工作,提高开发效率。
而在众多涌现的AI编程工具中,Cursor则像一匹黑马,凭借AI驱动的智能代码助手和用户友好的工具界面迅速蹿红,甚至引发了行业内对AI代理未来可能性的讨论。
这个4名本科生打造的编程“神器”Cursor,年化收入已经达到了6500万美元。
要说Cursor为什么这么火,其实答案很简单:它抓住了开发者真正需要的东西,同时又做得特别聪明、特别到位。
和传统的代码编辑器比起来,它直接就把AI变成了开发过程的核心助手。你不用再花时间到处找插件、改配置,从代码补全到自动生成逻辑,全都内置搞定。
同样地,OpenAI的Canvas也是今年的重头戏之一。Canvas基于GPT-4o,为用户提供了一个专门的协作平台。其最大的亮点是透明化了代码修改的过程,程序员不仅能看到改动的细节,还能通过自然语言指令快速优化代码结构。
而谷歌的Jules则瞄准了更深层次的编程应用。这款工具不仅结合了Google的Gemini 2.0模型和深度代码分析能力,自动生成解决方案,甚至可以与GitHub等平台无缝集成,完成从需求分析到代码实现的全流程。
要说今年的AI编程,为何取得了如此大的进展,那恐怕要归功于ReAct(Reasoning and Acting)框架的突破。
这是让AI编程助手实现从"辅助"到"自主"转变的关键技术。它通过将推理(Reasoning)和行动(Acting)紧密结合,建立了一套"思考-行动-反馈"的循环机制,让AI首次具备了真正的问题解决能力,而不是简单的模式匹配和代码生成。
在这样的突破下,有人调侃,有了AI,将来写代码就像聊天一样简单,用自然语言说出需求,AI就能给你一套解决方案。AI似乎正在把软件开发这个高大上的领域,变得像做PPT一样简单。
这样的进步,让人产生了一种“将来程序员都要失业了”的错觉,确实,AI现在帮我们搞定了很多从前费时费力的活儿,但在专业的业内大佬看来,AI Coding 虽然功能强大,但偶尔生成的逻辑会让人觉得“AI还在学走路”。
就连谷歌CEO劈柴也承认:”所有AI代码都必须经过工程师的“人工”审核和验收”。
尽管如此,今年的AI Coding,确实打开了想象的空间,让软件开放从“纯人脑的作品”开始逐渐变成“人与机器协作的产物”。
2024年的语音AI发展,用一种革命性的方式,重新定义了人机交互范式。
回想《Her》里那个温暖有感情的虚拟助手Samantha,不少人曾以为这是遥不可及的幻想。
但今年,OpenAI的GPT-4o、科大讯飞的星火模型、字节跳动的豆包,还有智谱清言等,都在用各自的技术证明,这种科幻的想象,现在真的照进了现实。
与传统的TTS(文本到语音转换)技术相比,像GPT-4o这样的新一代端到端语音大模型的最大亮点,就在于它能“懂场合”、“通人性”。
简单来说,传统的TTS技术多半是以静态规则为主,比如为特定句子设计语调模板,但GPT-4o这样端到端语音模型,不仅能通话中实时做到感知上下文,且能灵活选择声音的节奏、语气,甚至能被打断和停顿。
有了这种更“人性”的特点后,各个AI企业各显高招,从总体上看,实时语音AI的赛道,在2024年,大致呈现出了“多语言”、“个性化”的特点。
例如科大讯飞的星火大模型4.0 Turbo,不仅支持74种语言和方言,还引入了“超拟人”特性,通过个性化定制功能,让用户可以和AI助手形成更贴近现实的交流方式。
虽然在2024年,语音AI已经让人觉得“科幻照进现实”,但这个“现实”还有点“昂贵”。
从行业角度看,这波实时语音AI的竞争,比拼的其实是"算力经济学"。
为了应对实时语音的高昂成本,聪明的公司开始搞"算力分层"。简单对话用轻量级模型,复杂问题才上重型火力。
这也是为什么,在视频通话这种场景下,如果涉及到多模态交互,尤其是需要结合视觉线索或复杂上下文理解的时候(例如长文章或代码),语音AI的表现也常常不如文本模式下的大语言模型——回复的深度和质量会明显逊色。
总体来说,当前的语音AI,虽然给了行业惊鸿一瞥的惊喜,但要真正成为一个得力的智能助手,它需要的不只是更流利的语音,而是多项功能的整合。
2024年的AI Agent,不再仅仅是大模型的附属品,而是开始以独立角色,重新定义智能交互的边界。
像智谱的AutoGLM、Anthropic的Claude Computer Use,荣耀的手机AI助手,以及谷歌刚刚在年末发布的浏览器Agent助手Project Mariner等,正在逐渐将科幻里的“万能助手”变成现实。
从总体上看,今年的AI Agent,大致呈现出了两个方面的特征:
一是跨APP的Agent能力更强
以前一直有句话叫App墙,不同APP直接难以逾越。
现在这种“执行层”的变革,让AI摆脱了传统APP间的界限,使未来一种统领“千百APP”的超级应用成为了可能;
以谷歌的Project Mariner为例,这款浏览器Agent可以理解和操作网页上的所有元素,包括文本、代码、图片和表单。它不只是单纯浏览,而是能够完成从信息搜索到购买、表单填写等一系列操作。
而Anthropic的Claude Computer Use,则专注于电脑端操作,能用鼠标和键盘模拟用户行为,完成文件编辑和多程序协作。二者都展示了Agent在处理复杂的多模态任务时,进行多种工具调用的适配能力。
二就是CUI时代渐渐来临
一句话点200杯咖啡,一句话发2万的红包。
像智谱的AutoGLM,以及荣耀的手机AI助手,可以通过简单的语音指令完成手机端和跨APP的复杂任务,比如订咖啡、对比航班价格甚至建群发红包。
如今,正从GUI(图形用户界面)向CUI(对话式用户界面)时代转变。
苹果在对GUI的巨大贡献,引发了一场交互革命,如今AI公司正在引发新的交互颠覆性创新。
此外,2024年的AI Agent技术,带来的另一个惊喜,是AI在游戏行业的突破。
尤其是网易伏羲在《永劫无间》手游和腾讯的《暗区突围》的AI队友,在结合了多模态技术后,已经不仅仅是传统意义上的“NPC”,而是一个能听懂语音指令、实时调整策略、甚至和玩家情感互动的“智能队友”。
这些突破性的应用,让AI不再只是游戏中的“工具”,而是玩家的真正伙伴。
从趋势来看,AI Agent正在向多模态能力和更深层次的智能化发展。
结合视觉、语音、文本等多模态信息,它们能够更全面地理解用户需求,并从一个“对话工具”成长为“得力助手”,逐渐正带领我们进入一个更加无缝和高效的智能时代。
在这个充满变数与惊喜的2024年,AI就像一个正在成长的孩子——有时笨拙,有时惊艳,但始终充满无限可能。
尽管道路上有数据枯竭的忧虑,有商业化的阵痛,有技术的不完美。大模型支撑着AI原生应用高速发展,2025年被誉为AI发展元年,未来会越来越精彩。
本文来自微信公众号“AI鲸选社”,作者:林书,编辑:杨晓鹤,36氪经授权发布。