当前位置:首页|资讯|商汤|自动驾驶|ChatGPT

商汤绝影王晓刚:端到端是智能驾驶的“ChatGPT 时刻” | 36氪专访

作者:田哲发布时间:2024-07-05

采访 | 李勤 田哲

文 | 田哲

编辑 | 李勤

“我常对同事们说,团队生命永远只有半年,活过半年才能续命。”说话者,是商汤绝影智能汽车事业群总裁王晓刚。

近几年,汽车行业仿佛坐上一辆高速行驶的过山车,各类新技术层出不穷。不到三年,智能驾驶量产落地就从高速道路,转向全国城乡道路,稍不留神,玩家们就会被市场远远抛下,失去下一轮游戏的资格。王晓刚希望这句警句,能激励团队紧跟行业进程。

2021年,商汤发布智能汽车品牌“绝影”,以Tier 1的身份切入智能汽车市场,由王晓刚掌舵。王晓刚是商汤科技的联合创始人兼首席科学家,在此之前,他作为商汤研究院院长带队研究大模型。

商汤绝影的主要收入来源一度是智能座舱业务,其与上汽、奇瑞等知名主机厂合作了上百款量产车型。然而,汽车行业更广阔、同时变革更剧烈的赛道是智能驾驶。而端到端大模型,无疑是当下影响智能驾驶走向的最大变量。

在王晓刚看来,端到端大模型至关重要,是团队实现智能驾驶弯道超车的机会。

2023年,智能驾驶进入开城竞赛,各车企和Tier 1试图研发低成本、通用性强的智能驾驶系统。当年5月,特斯拉CEO马斯克宣布,特斯拉将发布采用端到端大模型的自动驾驶系统,逐渐扭转了行业智能驾驶的研发方向。

端到端大模型旨在将智能驾驶的所有流程,整合至一个统一的模型,只需输入原始数据就能直接输出最终结果,从而大幅提升智能驾驶系统通用性。

这一轮AI与智能驾驶深度融合的浪潮,让商汤绝影看见了发挥大模型优势的机会。

今年4月北京车展期间,商汤绝影实车演示了感知决策一体化自动驾驶通用大模型UniAD,据悉,仅通过纯视觉和导航地图,车辆就能在城市、乡村道路智能驾驶。

王晓刚告诉36氪汽车,商汤研究端到端智能驾驶的契机是与本田的合作。2017年,本田汽车向商汤提出一个课题,要求商汤只用摄像头,没有高精地图的情况下实现智能驾驶功能。“当时我们在本田测试场实现了端到端的智能驾驶,自那之后,团队就持续研究端到端。”

这一次的合作,成为商汤绝影投入大模型研发的开端。2018年,商汤在上海建设超算中心,迄今已有超4.5万块GPU,总算力规模达到1.2万PFLOPS,可实现连续30天稳定训练大模型。充足的算力资源,意味着商汤绝影的模型迭代几乎不受限制。

模型训练离不开道路数据。王晓刚告诉36氪汽车,合作的量产车型在开发测试阶段,团队会定义一套数据操作标准,采集全套数据用于端到端大模型训练。待合作车型上市后,商汤将能获得更丰富的道路数据。

为了获得非公开的高质量数据,商汤绝影还开发了用AIGC视频生成了世界模型,可根据需要生成指定的场景用于模型训练。

决战时刻将至,商汤绝影一改往日的学术风格,为团队扩充了大量有着车企、Tier 1背景的新成员,补齐交付能力。

与大多数智能驾驶解决方案商不同,商汤绝影不介意白盒交付。在王晓刚看来,只有车企真正理解技术,明白现有方案的不足,才能积极配合团队共同开发,加速产品迭代。

商汤绝影把端到端大模型上车时间定在2025年,在王晓刚看来,这是商汤绝影的必赢之战,“没有Plan B”。

以下是36氪汽车与商汤绝影智能汽车事业群总裁王晓刚的对话,经编辑:

谈端到端大模型研发:现在依然是删代码、加代码的过程

36氪汽车:自动驾驶的算法从规则向着AI转变,转变的驱动力是什么?

王晓刚: 首先,基于规则的自动驾驶每天可能遇到几千个道路场景,每个场景对应着不同的规则,如果不断编写规则,时间长久后,可能会忘记初期编写规则的作用,同时消耗的资源也十分巨大。如果用AI大模型数据驱动,自动驾驶研发效率能提升数十倍。

其次,GPT-4o的多模态数据流推理实时交互,人机交互体验有着明显提升。以前基于规则的体验非常固定,反馈单调且不够智能。现在能调动车内外的摄像头,随时随地和汽车大模型自然交互,创造很多内容,加上端到端多模态融合,非常契合汽车的使用场景。

36氪汽车:分段式端到端,是真正的端到端大模型吗?

王晓刚:不是的。一块一块组合的模型能力很弱,不能真正理解场景中的复杂情况,而是解决被简化的任务,这种大模型不需要大网络去喂数据,也不具备像人那样的大脑。

打个比方,蜜蜂基于生物习性,对某个特定的简单任务会完成得很好,但是它的头脑特别简单,不能像人一样具备通用能力,在新场景遇到问题,会发明新工具解决新问题。蜜蜂和人,分别像分段式端到端大模型和一体式端到端大模型,分段式端到端大模型的神经网络模型很小,只会解决特定任务。

36氪汽车:端到端大模型智驾的上限很高,下限难以预测,如何把控下限?

王晓刚:初始阶段还是要用规则兜底,端到端大模型越深入发展,规则将越少,就像感知模块的训练少,要用许多后处理融合,但是随着感知能力增强,规则就慢慢撤掉。

今天绝影的车道保持感知已经做得很好了,就删去很多规则,如果将来场景变复杂了,就继续增加规则,这是一个重复删除代码、增加代码的过程,不过加强后的大模型所需的规则会越来越少。

实际上,ChatGPT在衍生出各种应用时,也有很多规则兜底。端到端大模型的核心在于通用能力,通用能力越强,就能完成更多的事情。

36氪汽车:有行业观点认为,车企大规模量产无图智驾方案后,才更利于端到端智驾方案落地,而商汤是直接跨越到端到端,两者之间有什么区别?

王晓刚:行业大多数端到端大模型智驾方案采用轻图方案,配有简单的标注。如果切换技术路线,成本非常高,相当于重新搭建研发体系。

所有基于规则的智驾方案,由上千名算法工程师不断写规则、打补丁以维护智驾系统。这样的方案量产上市后,还需要持续维护。如果切换技术路线,就相当于从头开始研发。

现在基于规则的智驾方案,因为在车端上写了复杂的规则,导致车端网络算法比较复杂。端到端大模型智驾方案的特点是,车端上网络算法比较简单,后台的任务比较复杂,因为不仅需要数据闭环,还要训练、清洗数据、训练大模型、把大模型分为小模型等等,以维持模型训练的稳定性。

谈端到端大模型落地:未来汽车行业只剩车企、芯片和AI公司

36氪汽车:训练模型需要大量数据,商汤绝影的数据来源是什么?

王晓刚:端到端大模型是一个长期发展过程,需要分步骤进行。商汤会采集数据,也会与车企合作。

商汤绝影合作的量产车型在开发测试阶段,我们会定义一套数据操作标准,不同的量产项目车型是基于规则的智驾系统,我们采集的全套数据可以用于端到端大模型训练。

合作车型上市后会有数据回流,我们会和车企深入合作,选择、清洗更丰富的道路数据。

数据采集越深入,就越难采集到想要的特定数据,采集成本也将提高,绝影用AIGC视频生成的世界模型,进行数据采集。

至于世界模型采集数据的成本,商汤是一家平台型公司,开发的技术与不同行业合作进而分摊成本,还能和很多不同行业的合作伙伴联合开发分摊成本。因此,商汤绝影未来也会和车企深入合作数据采集。

36氪汽车:商汤绝影在推动数据共享时,车企的态度是什么?

王晓刚:车企目前很愿意与我们共享数据,因为绝影的任务明确,车企知道哪方面存在问题,就愿意开放相关数据以解决问题。不过,目前车企没看到端到端大模型更通用的能力。如果看到的话,我想车企会更有动力和我们一起挖掘数据。

36氪汽车:端到端大模型的人才画像是怎样的?

王晓刚:端到端大模型的平台体系非常重要,需要团队具备非常强且全面的工程化能力。如果是模型训练,相关团队应该具备创新性,需要想办法快速迭代。而在最终方案交付时,需要经验丰富的团队兜底。

36氪汽车:行业角度来看,端到端大模型团队规模多大才合适?

王晓刚:现在许多端到端大模型团队,大部分人负责数据采集、测试、分析等工作,真正参与大模型本身工作,团队规模几十人就算多了。

36氪汽车:现在行业有全栈能力的公司,还有芯片、算法等公司,您认为汽车行业未来格局如何?

王晓刚:车企、芯片公司还有AI公司,他们之间的合作是核心部分,其他部分比如硬件、Tier 1等集成类公司可能会被吸收。

谈商汤绝影商业理解:汽车是大模型落地的重要场景

36氪汽车:商汤绝影的商业形态是什么?

王晓刚:商汤绝影有三大业务,分别是智能驾驶、智能座舱和AI云,本质上绝影为车企输出能力。

我认为终局是给车企赋能基础能力,通过数据合作打造各种体验差异化的应用,而不是交付标准化产品。

36氪汽车:其他Tier 1似乎不需要车企具有智驾能力,商汤绝影恰恰相反?

王晓刚:车企需要理解技术,绝影可以白盒交付车企,只有车企理解后,才能根据其需要产生非常有价值的数据,将有限的资源针对性投入,从而进一步增强大模型,推动整个体系不断演进。如果车企遇到问题就找Tier 1解决,车企永远无法实现跨越式的技术发展。

端到端给智驾大模型带来了通用能力,基于这种能力可以生成很多新应用,这些应用会有很多想象空间和拓展空间,而不是只限于单一任务的理解。

36氪汽车:意味着目前绝影的商业模式不特别注重交付吗?

王晓刚:实现远大理想有一个过程,要一步一个脚印,保证交付质量,与车企建立信任关系。现在商汤绝影的内部要求是客户、质量放在第一位,必须第一时间响应客户需求。

36氪汽车:商汤绝影如何提升交付能力?

王晓刚:我们之前AI方面的人才比较多,现在我们引入了大量经验丰富、来自Tier 1、车企的人才。在组织机制上,后端有研发人员,前端有综合的交付团队,已经具备足够力量调动交付资源,同时我们的质量体系也在积极建设。

36氪汽车:您在商汤如何分配精力?

王晓刚:我的精力绝大部分在绝影上,和集团研发也有很多交流。

今天来看,汽车是能推动大模型落地的重要场景,因为大模型的核心就是人机交互体验,现在人机交互界面只有手机、汽车、机器人三个。

手机现在只是文字性交互,其本身的金融属性决定了没办法通过多模态语音、视频进行交互。机器人的交互和汽车关联,甚至能复用,但是机器人没有达到大规模量产应用阶段,数据量很少,无法提供有价值的反馈,从而形成闭环。

而汽车车内外都能交互,是最好的多模态交互场景,并且产量庞大,消费者对多模态大模型的接受度会越来越高。在车内,用户能和多模态大模型交流;车外,大模型能拓展延伸用户的视觉,告诉用户车外的交通情况、建筑物、文字等信息。

36氪汽车:对于商汤绝影来说,明年端到端大模型的交付落地,是必赢之战吗?

王晓刚:对,没有Plan B。我常常和团队说,我们只有半年的生命,半年之后可能再续命。我们有未来五年、十年的理想目标,但是生命永远只有半年。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1