撰文 | 郑文 编辑|马青竹
2023年了,大模型是时候开始养家糊口了。
六年前,谷歌研究团队发布论文《Attention Is All You Need》,一石激起千层浪。
文中提到的Transformer模型成为一个巨大的母题,这种“序列到序列(seq2seq)”的机器学习模型架构,把人工智能的历史彻底断代。
从传统循环神经网络(RNN)和卷积神经网络(CNN),到Transformer的跨越,机器学会了顺畅地“联系上下文”。
这是一个超级巨大的分水岭,颠覆是从哲学范式层面开始。Transformer架构的出现让整个NLP(自然语言处理)领域都发生了巨大的认知变化,突然给停滞不前的行业指明了方向。
“原来,所有东西其实都是语言模型,语言模型是唯一的问题,或者说next token prediction(预测下一个字段)是唯一的问题,等于可以对整个世界任何事物的概率进行建模。”长期浸淫于NLP领域的AI公司Moonshot创始人杨植麟恍然大悟。
在此框架下,世界就是一个硬盘模型,当人类文明数字化之后,所有人类文明之和就是硬盘的总和。只要能预测下一个token是什么,那就能实现智能。
轰动世界的大模型GPT基于此诞生。
杨植麟直言:“先是非常激动,好像被苹果砸中一样,随即又陷入沮丧,再想到可干的事情还很多,又兴奋起来。”
从Transformer开始,命运的齿轮开始转动……
大模型一“动脑”,英伟达就收钱
ChatGPT引起轰动时,别的大模型也如雨后春笋般涌现。赛迪顾问发布的《IT2023》系列研究显示,截至7月份国内累计有130个大模型问世;国外是138个,其中美国114个。
大模型究竟有多大?GPT-3是1750亿个参数,据说GPT-4有1.8万亿个参数。目前主流的大模型参数在千亿规模,小的也有百亿规模的。比如,理想汽车的Mind GPT的参数量是160亿。
这么大的模型,训练、推理都需要“吃下”巨量的算力。
根据Chat-GPT公司OpenAI的最新研究,从2012年以来,最大的AI训练对于算力的消耗已经增长了30万倍,平均每100天就翻倍,这个速度已经大大超越了两年翻倍的摩尔定律。
一家大模型公司很有可能需要部署超大算力的基础设施。比如商汤科技,3万块GPU的部署,可以实现6ExaFLOPS的算力输出能力,可最多支持20个千亿参数量大模型同时训练,最高可支持万亿参数超大模型的训练。
毫末智行的数据则显示,其旗下产品Transformer训练端所需的算力是CNN的100倍。
据数据猿估算,用户向大模型提问,获得回复也需要算力。基于一个1000亿参数规模的大模型,设定用户提问50字得到回复1000字,一块19.5TFLOPs的计算能力的A100芯片,大约可以同时支撑15万用户使用。
所以,大模型也是一台巨大的碎钞机,赚钱是不敢想的。OpenAI仅去年就亏了5.4亿美元(约39.5亿人民币)。
来看一组直观的数据:OpenAI的一篇论文中提到,1750亿个参数、数据集45TB的GPT-3,训练花了3640pfs-day,语言模型训练一次的费用保守估计是460万美元(约3366.74万元人民币),模块总训练成本估计达到1200万美元(约8782.8万元人民币)。而参数量达到1.8万亿的GPT-4,训练一次的成本高达6300万美元。
为了给ChatGPT提供算力保障,金主爸爸微软豪掷几亿美元,耗费上万张英伟达A100芯片打造超算平台。此外,微软还在Azure的60多个数据中心部署几十万张GPU,用于ChatGPT的推理。
在这场淘金热中,终究还是卖铲子的赚了,唯一的赢家是英伟达,靠卖GPU赚得盆满钵满。
摩根士丹利银行在今年年初就给出测算,如果把谷歌一半的搜索工作替换成当下的GPT程序,谷歌每年可能会额外损失60亿美元。模型越大,损失越多。
可怕的是C端商业逻辑跑不通,Chat-GPT的模型覆盖面很广,但缺点是不深入,只是整合已有的信息。这么贵的东西,靠肤浅地“陪聊”养不活自己。
于是商业化的路径探索专向垂直领域,比如为车业“卷王”们提供“军火”,培养大模型去提高智驾能力、去当车内管家。
清华大学电子工程系长聘教授周伯文表示,聚焦在一个有足够广度的垂直整合领域里,大模型深度和推理能力可能以更低的成本获得能力涌现。参数少,没有过多假设,更容易通用化。
“效率优化决定了AI模型在产业服务端的核心竞争力。”商汤科技联合创始人杨帆则认为,“减少模型的参数,以免大模型在学习的时候太过放飞自我。”
马斯克一边说着:“ChatGPT好得吓人,我们离危险的人工智能不远了”;一边已经在特斯拉电动车上应用起了基于视觉数据的智驾大模型。
裹挟进入“混沌时代”:危险又上瘾
智能汽车作为对科技最敏感的综合性终端,吹起了第一阵风。
8月份,马斯克直播了特斯拉FSD V12版的驾驶表现,在直播中,他反复强调,“我们没有编程,没有程序员写任何一行代码来识别道路、行人等,全部交给了神经网络。”要知道在V11版本中,控制栈中还有超过30万行C++代码。
马斯克口中的“全部交给神经网络”就是大模型的产业化应用。
特斯拉最新的FSD V12测试版用端到端大模型取代了用于感知、描述、预测以及规划的多个模块。如果说ChatGPT的两端是文字问题和文字回答,那么特斯拉自动驾驶的两端则是道路场景图像和车辆控制参数。道路场景图像由摄像头或雷达采集,而控制参数则包括方向盘转角、油门、刹车和速度等数据,中间是端到端大模型。
清华智能产业研究院助理研究员詹仙园博士指出,端到端,简单来说就是把所有架构、不同模块融成一个完整的整体,直接从输入到输出做训练,学习信号从决策处向前传递。
端到端的优点有以下三点:
首先,可以把整个端到端模型看成单一的超大模型,结构非常简单,所有目标都围绕着决策的最终目的做优化和学习,优化目标统一。
其次,从输入到最终决策输出是端到端的学习,可以实现依赖海量数据的纯数据驱动学习。
最后,端到端可以共享不同模块模型的主干,从而可以降低计算上的开销。
而端到端也带来了“黑盒子”困境,原有的模块化好处恰恰在于,模块拆解非常干净,每个模块建模目标非常明确,解释性非常好。但模块化架构下,每个模块的设计和优化都有自己的一套体系,多个模块组合时势必会出现误差累积。
这一切建立在巨量的视频数据和GPU消耗上。训练这套模型也耗费了特斯拉不少经费。
马斯克透露,特斯拉Dojo超算今年在AI训练上大概花了20亿美元(约145亿人民币)。手握5000张英伟达H100芯片的马斯克认为还不够,马上要上线由10000块H100组成的GPU集群,加快训练新版FSD。
不过端到端模型的可解释性差。在AI界有个词叫“涌现”,意思是当模型突破某个规模时,性能突然显著提升,能力有了质的飞跃。这种情况不可控、无法预知。
如前文,这个混沌系统是个黑盒,不再按照if…then…的规则运行,当出现“涌现”,工程师对其内部知之甚少。出现失败的案例时,人类也只能当个添加“数据燃料”的看客,只能重练。
同济大学教授、汽车安全专家朱西产则担心,“光是感知使用神经网络,就产生了预期功能安全问题,端到端自动驾驶全部使用神经网络,那就没法测试、认证了”。
不过即便有此类的担心,技术的方向似乎再也无法逆转了。
过去,智驾通过case驱动的开发模式来解决问题。通常需要先发现一个问题,再基于这个问题的特征去采集一批数据,然后对这批数据进行人工标注,再基于人工标注的数据训练一个小模型,这个小模型就具备了解决这个特定问题的能力。明显滞后,泛化性还差。
彼时,仅在感知领域,就有无数的小模型对齐,车道线有车道线的检测,障碍物有障碍物的检测,红绿灯有红绿灯的检测,甚至车轮有车轮的检测,车边缘有车边缘的检测,无数小模型集合在一起,数据搜集存在很明显的瓶颈。
以感知部分为例,BEV感知大模型正以吞食天地的速度快速消灭过去多个零散组合式的小模型,从而形成完整的一站式的大感知模型。
现在国内华为、小鹏、百度、毫末等企业的智驾算法仍然还是多模块的,感知大模型再加别的模块,介于“端到端”和“规则化系统”之间。
百度智能驾驶事业群组智能汽车业务部总经理苏坦表示,“基于模型化的思想,对过去规则化的体系进行深度的改造,这件事情的节奏是非常快的。像今天提到的类似于4D BEV tranformer、Apollo Highway Driving Pro等等都是端侧部署的,底层就是模型化。”
就在今年4月,毫末发布了自动驾驶生成式大模型“DriveGPT雪湖·海若”,参数规模1200亿,预训练阶段引入4000万公里量产车驾驶数据,RLHF阶段引入5万段人工精选的困难场景接管视觉数据。
在过去的200多天里,DriveGPT在MANA OASIS雪湖·绿洲智算中心日夜不停地进化,到今天为止,训练了超过100亿帧互联网图片数据集,480万包含人驾行为的自动驾驶4D 数据,以及8700万公里的训练里程。如此巨大的数据规模是人类穷尽一生都难以完成的。
DriveGPT雪湖·海若包括感知大模型、认知大模型。输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。
最终毫末的目标是把感知大模型、认知大模型对接,进行端到端训练,构建了毫末自动驾驶大模型DriveGPT。现阶段主要解决的是自动驾驶的认知决策问题。
在毫末智行CEO顾维灏看来,一个好的自动驾驶系统必须跟老司机一样懂得社会常识、知道这个世界各种现象背后的物理知识。“我们认为,只通过自动驾驶数据是无法训练出这个结果的。”这也正是毫末引入大语言模型的用意所在。
此外,顾维灏补充解释道,“云端模型大小和车端的模型大小还不是一个完全等同的关系,并不是说要把这1200亿的参数大模型都上到车端。在这个中间过程中,还是要经过很多剪辑、蒸馏,关键是留住核心的能力。”
把座舱重做一遍
座舱自然也不会错过大模型,它可以在所有地方重新做一遍。
商汤科技联合创始人、首席科学家,绝影智能汽车事业群总裁王晓刚称,“智能座舱此前更多提供的是单点的功能,基于固有规则触发,智能化体验并不算好。”
在10月17日的百度世界大会上,百度智能驾驶事业群组的首席架构师、技术委员会主席王亮则指出,大模型上车后的变化是,是一种自然交互,不是规则,很自然的语言它都懂。具像来看,在智能座舱领域,大模型将重构人车交互方式,让交互更加自然。
目前,有多家企业针对座舱推出了大模型。
以百度文心大模型为基础样例,百度APollo为智能座舱打造了基础的基座,交互不需要复杂的按键操作,用语音就能操控,即便是七嘴八舌多人指令、声音的交织、连续对话的情况下,也能理解每个人不同的需求,做到同时满足。
包括舱内理解力提升、新增多模态理解、主动交互能力、动态回复能力、响应时间优化等基础算法能力建设。目前百度智能座舱驾驶方案在大模型已经开始在凯迪拉克、别克、吉利银河等品牌中实现量产的搭载。
科大讯飞的星火大模型,据官方介绍,上车具备五大核心亮点:全场景的类人交互、沉浸式特色情景、随手可得的用车助手、大师级AI调音、芯算融合的高性价比。
其基于大模型推出的相关产品有:
*一星火汽车助理:面向汽车任务的便捷交互助手;
*二星火汽车APP:面向汽车生活小场景的大模型车端应用;
*三星火智慧座舱:软硬一体座舱域控制器解决方案。
科大讯飞已与奇瑞合作,助力打造自有大模型平台,通过跨业务场景、深度语义理解、多轮交互、学习进化、实时更新加载和多风格6大技术驱动,有效解决当前大多数人机交互的3大用户痛点,如:对话风格单一、聊天与技能未打通、缺乏跨场景业务;最终实现5大核心应用场景,成为车辆功能导师、冷暖共情伙伴、知识百科全书、旅行规划管家及身体健康顾问。
此外,商汤绝影正与几十余家车企密切对接,加快大模型在智能座舱领域的量产。
汽车AI Lab负责人杨继峰说,大模型本质上是一个范式变革,它颠覆的是底层技术本身,而不是产品形态。
“不要觉得大模型已经合格,大模型还早着呢。”他认为智能座舱到了瓶颈期,大模型所赋予的产品形态还并未到真正的拐点,用户在座舱里的使用行为习惯、交互行为习惯还并没有改变。
汽车终端和手机很不一样,手机只有一个屏,所有内容都从一个屏输出,而且手机的传感器感知的内容特别少,主要就是语音、视觉、GPS定位信息等。
汽车是目前人类社会上最大的智能移动终端,传感器数量大概是手机的十倍以上。而且座舱内的座椅、氛围灯等很多部件自由度很高,都可以进行控制、改造,与此同时还产生了HUD、VR等新的交互方式,输入端太杂,统一模型的开发很难。
简言之,在智能家居里做一个小爱同学很容易,但在车里做一个AI助手很难。
当然,大模型在车端的落地还处于早期形态,训练数据比较稀缺。但现阶段用的都是基于其他行业大规模落地的产品数据,如果希望在车端实现好的效果,还需要车端高质量数据的投喂。
基于多模态大模型的座舱产品虽然是未来,但产品体验从量变到质变的拐点还没到来。
结语
大模型喧嚣背后,是商业上脆弱的大模型公司。
红杉资本曾经做过测算:全球的科技公司每年预计将花费2000亿美元,用于大模型基础设施建设。相比之下,每年最多产生750亿美元收入,多少显得有些拿不出手。
“短期内的大模型进展,东边发一个模型,西边发一个,可能都是噪音。大家现在说我比你高,你比我高,没什么意义。”杨植麟说。
成本与创造的价值不匹配,在新技术的诞生初期永远是个问题。历史大浪淘沙,解决消费者痛点,找到可持续商业模式的也就活下来了。
而那时,变革往往以病毒式的方式传播,突然达到“引爆点”。