商汤绝影王晓刚：端到端是智能驾驶的“ChatGPT 时刻” | 36氪专访

作者：田哲发布时间：2024-07-05

商汤自动驾驶 ChatGPT

采访 | 李勤田哲

文 | 田哲

编辑 | 李勤

“我常对同事们说，团队生命永远只有半年，活过半年才能续命。”说话者，是商汤绝影智能汽车事业群总裁王晓刚。

近几年，汽车行业仿佛坐上一辆高速行驶的过山车，各类新技术层出不穷。不到三年，智能驾驶量产落地就从高速道路，转向全国城乡道路，稍不留神，玩家们就会被市场远远抛下，失去下一轮游戏的资格。王晓刚希望这句警句，能激励团队紧跟行业进程。

2021年，商汤发布智能汽车品牌“绝影”，以Tier 1的身份切入智能汽车市场，由王晓刚掌舵。王晓刚是商汤科技的联合创始人兼首席科学家，在此之前，他作为商汤研究院院长带队研究大模型。

商汤绝影的主要收入来源一度是智能座舱业务，其与上汽、奇瑞等知名主机厂合作了上百款量产车型。然而，汽车行业更广阔、同时变革更剧烈的赛道是智能驾驶。而端到端大模型，无疑是当下影响智能驾驶走向的最大变量。

在王晓刚看来，端到端大模型至关重要，是团队实现智能驾驶弯道超车的机会。

2023年，智能驾驶进入开城竞赛，各车企和Tier 1试图研发低成本、通用性强的智能驾驶系统。当年5月，特斯拉CEO马斯克宣布，特斯拉将发布采用端到端大模型的自动驾驶系统，逐渐扭转了行业智能驾驶的研发方向。

端到端大模型旨在将智能驾驶的所有流程，整合至一个统一的模型，只需输入原始数据就能直接输出最终结果，从而大幅提升智能驾驶系统通用性。

这一轮AI与智能驾驶深度融合的浪潮，让商汤绝影看见了发挥大模型优势的机会。

今年4月北京车展期间，商汤绝影实车演示了感知决策一体化自动驾驶通用大模型UniAD，据悉，仅通过纯视觉和导航地图，车辆就能在城市、乡村道路智能驾驶。

王晓刚告诉36氪汽车，商汤研究端到端智能驾驶的契机是与本田的合作。2017年，本田汽车向商汤提出一个课题，要求商汤只用摄像头，没有高精地图的情况下实现智能驾驶功能。“当时我们在本田测试场实现了端到端的智能驾驶，自那之后，团队就持续研究端到端。”

这一次的合作，成为商汤绝影投入大模型研发的开端。2018年，商汤在上海建设超算中心，迄今已有超4.5万块GPU，总算力规模达到1.2万PFLOPS，可实现连续30天稳定训练大模型。充足的算力资源，意味着商汤绝影的模型迭代几乎不受限制。

模型训练离不开道路数据。王晓刚告诉36氪汽车，合作的量产车型在开发测试阶段，团队会定义一套数据操作标准，采集全套数据用于端到端大模型训练。待合作车型上市后，商汤将能获得更丰富的道路数据。

为了获得非公开的高质量数据，商汤绝影还开发了用AIGC视频生成了世界模型，可根据需要生成指定的场景用于模型训练。

决战时刻将至，商汤绝影一改往日的学术风格，为团队扩充了大量有着车企、Tier 1背景的新成员，补齐交付能力。

与大多数智能驾驶解决方案商不同，商汤绝影不介意白盒交付。在王晓刚看来，只有车企真正理解技术，明白现有方案的不足，才能积极配合团队共同开发，加速产品迭代。

商汤绝影把端到端大模型上车时间定在2025年，在王晓刚看来，这是商汤绝影的必赢之战，“没有Plan B”。

以下是36氪汽车与商汤绝影智能汽车事业群总裁王晓刚的对话，经编辑：

谈端到端大模型研发：现在依然是删代码、加代码的过程

36氪汽车：自动驾驶的算法从规则向着AI转变，转变的驱动力是什么？

王晓刚： 首先，基于规则的自动驾驶每天可能遇到几千个道路场景，每个场景对应着不同的规则，如果不断编写规则，时间长久后，可能会忘记初期编写规则的作用，同时消耗的资源也十分巨大。如果用AI大模型数据驱动，自动驾驶研发效率能提升数十倍。

其次，GPT-4o的多模态数据流推理实时交互，人机交互体验有着明显提升。以前基于规则的体验非常固定，反馈单调且不够智能。现在能调动车内外的摄像头，随时随地和汽车大模型自然交互，创造很多内容，加上端到端多模态融合，非常契合汽车的使用场景。

36氪汽车：分段式端到端，是真正的端到端大模型吗？

王晓刚：不是的。一块一块组合的模型能力很弱，不能真正理解场景中的复杂情况，而是解决被简化的任务，这种大模型不需要大网络去喂数据，也不具备像人那样的大脑。

打个比方，蜜蜂基于生物习性，对某个特定的简单任务会完成得很好，但是它的头脑特别简单，不能像人一样具备通用能力，在新场景遇到问题，会发明新工具解决新问题。蜜蜂和人，分别像分段式端到端大模型和一体式端到端大模型，分段式端到端大模型的神经网络模型很小，只会解决特定任务。

36氪汽车：端到端大模型智驾的上限很高，下限难以预测，如何把控下限？

王晓刚：初始阶段还是要用规则兜底，端到端大模型越深入发展，规则将越少，就像感知模块的训练少，要用许多后处理融合，但是随着感知能力增强，规则就慢慢撤掉。

今天绝影的车道保持感知已经做得很好了，就删去很多规则，如果将来场景变复杂了，就继续增加规则，这是一个重复删除代码、增加代码的过程，不过加强后的大模型所需的规则会越来越少。

实际上，ChatGPT在衍生出各种应用时，也有很多规则兜底。端到端大模型的核心在于通用能力，通用能力越强，就能完成更多的事情。

36氪汽车：有行业观点认为，车企大规模量产无图智驾方案后，才更利于端到端智驾方案落地，而商汤是直接跨越到端到端，两者之间有什么区别？

王晓刚：行业大多数端到端大模型智驾方案采用轻图方案，配有简单的标注。如果切换技术路线，成本非常高，相当于重新搭建研发体系。

所有基于规则的智驾方案，由上千名算法工程师不断写规则、打补丁以维护智驾系统。这样的方案量产上市后，还需要持续维护。如果切换技术路线，就相当于从头开始研发。

现在基于规则的智驾方案，因为在车端上写了复杂的规则，导致车端网络算法比较复杂。端到端大模型智驾方案的特点是，车端上网络算法比较简单，后台的任务比较复杂，因为不仅需要数据闭环，还要训练、清洗数据、训练大模型、把大模型分为小模型等等，以维持模型训练的稳定性。

谈端到端大模型落地：未来汽车行业只剩车企、芯片和AI公司

36氪汽车：训练模型需要大量数据，商汤绝影的数据来源是什么？

王晓刚：端到端大模型是一个长期发展过程，需要分步骤进行。商汤会采集数据，也会与车企合作。

商汤绝影合作的量产车型在开发测试阶段，我们会定义一套数据操作标准，不同的量产项目车型是基于规则的智驾系统，我们采集的全套数据可以用于端到端大模型训练。

合作车型上市后会有数据回流，我们会和车企深入合作，选择、清洗更丰富的道路数据。

数据采集越深入，就越难采集到想要的特定数据，采集成本也将提高，绝影用AIGC视频生成的世界模型，进行数据采集。

至于世界模型采集数据的成本，商汤是一家平台型公司，开发的技术与不同行业合作进而分摊成本，还能和很多不同行业的合作伙伴联合开发分摊成本。因此，商汤绝影未来也会和车企深入合作数据采集。

36氪汽车：商汤绝影在推动数据共享时，车企的态度是什么？

王晓刚：车企目前很愿意与我们共享数据，因为绝影的任务明确，车企知道哪方面存在问题，就愿意开放相关数据以解决问题。不过，目前车企没看到端到端大模型更通用的能力。如果看到的话，我想车企会更有动力和我们一起挖掘数据。

36氪汽车：端到端大模型的人才画像是怎样的？

王晓刚：端到端大模型的平台体系非常重要，需要团队具备非常强且全面的工程化能力。如果是模型训练，相关团队应该具备创新性，需要想办法快速迭代。而在最终方案交付时，需要经验丰富的团队兜底。

36氪汽车：行业角度来看，端到端大模型团队规模多大才合适？

王晓刚：现在许多端到端大模型团队，大部分人负责数据采集、测试、分析等工作，真正参与大模型本身工作，团队规模几十人就算多了。

36氪汽车：现在行业有全栈能力的公司，还有芯片、算法等公司，您认为汽车行业未来格局如何？

王晓刚：车企、芯片公司还有AI公司，他们之间的合作是核心部分，其他部分比如硬件、Tier 1等集成类公司可能会被吸收。

谈商汤绝影商业理解：汽车是大模型落地的重要场景

36氪汽车：商汤绝影的商业形态是什么？

王晓刚：商汤绝影有三大业务，分别是智能驾驶、智能座舱和AI云，本质上绝影为车企输出能力。

我认为终局是给车企赋能基础能力，通过数据合作打造各种体验差异化的应用，而不是交付标准化产品。

36氪汽车：其他Tier 1似乎不需要车企具有智驾能力，商汤绝影恰恰相反？

王晓刚：车企需要理解技术，绝影可以白盒交付车企，只有车企理解后，才能根据其需要产生非常有价值的数据，将有限的资源针对性投入，从而进一步增强大模型，推动整个体系不断演进。如果车企遇到问题就找Tier 1解决，车企永远无法实现跨越式的技术发展。

端到端给智驾大模型带来了通用能力，基于这种能力可以生成很多新应用，这些应用会有很多想象空间和拓展空间，而不是只限于单一任务的理解。

36氪汽车：意味着目前绝影的商业模式不特别注重交付吗？

王晓刚：实现远大理想有一个过程，要一步一个脚印，保证交付质量，与车企建立信任关系。现在商汤绝影的内部要求是客户、质量放在第一位，必须第一时间响应客户需求。

36氪汽车：商汤绝影如何提升交付能力？

王晓刚：我们之前AI方面的人才比较多，现在我们引入了大量经验丰富、来自Tier 1、车企的人才。在组织机制上，后端有研发人员，前端有综合的交付团队，已经具备足够力量调动交付资源，同时我们的质量体系也在积极建设。

36氪汽车：您在商汤如何分配精力？

王晓刚：我的精力绝大部分在绝影上，和集团研发也有很多交流。

今天来看，汽车是能推动大模型落地的重要场景，因为大模型的核心就是人机交互体验，现在人机交互界面只有手机、汽车、机器人三个。

手机现在只是文字性交互，其本身的金融属性决定了没办法通过多模态语音、视频进行交互。机器人的交互和汽车关联，甚至能复用，但是机器人没有达到大规模量产应用阶段，数据量很少，无法提供有价值的反馈，从而形成闭环。

而汽车车内外都能交互，是最好的多模态交互场景，并且产量庞大，消费者对多模态大模型的接受度会越来越高。在车内，用户能和多模态大模型交流；车外，大模型能拓展延伸用户的视觉，告诉用户车外的交通情况、建筑物、文字等信息。

36氪汽车：对于商汤绝影来说，明年端到端大模型的交付落地，是必赢之战吗？

王晓刚：对，没有Plan B。我常常和团队说，我们只有半年的生命，半年之后可能再续命。我们有未来五年、十年的理想目标，但是生命永远只有半年。

商汤绝影王晓刚：端到端是智能驾驶的“ChatGPT 时刻” | 36氪专访

谈端到端大模型研发：现在依然是删代码、加代码的过程

谈端到端大模型落地：未来汽车行业只剩车企、芯片和AI公司

谈商汤绝影商业理解：汽车是大模型落地的重要场景

推荐体验

相关资讯

商汤绝影王晓刚：端到端是智能驾驶的“ChatGPT 时刻”

商汤绝影王晓刚：“两段式”端到端再做十年，也成不了智能驾驶的“ChatGPT”

2024外滩大会丨商汤绝影王晓刚主题演讲回顾

36氪独家｜理想智能驾驶围绕“端到端”变阵，加速AI大模型上车

合成数据企业「光轮智能」获数千万Pre-A轮融资，加速端到端自动驾驶与商业出海 | 36氪首发

近期资讯

年轻人开始评论区“哭穷”，下单真能变便宜吗？

曝华为Pura 80 Art有望回归：旗舰手机设计标杆

2025 华硕 ROG 游戏本工程机现身 GB，搭载 16 核 AMD Zen5处理器

连云港“E港通”口岸一体化智慧服务平台正式发布

嫦娥五号月球样品展激发小学生太空梦：未来要取回火星土壤

江苏广电打造全新客户端“ai荔枝”的创新逻辑！

一起鸿蒙吧，现在到了「绝佳时刻」

数智电网产业链创新生态大会暨数智电网科创园启航活动举办

电视机哪个品牌好？85英寸电视性价比之选！五款不到4000元推荐

宁波一90后帅小伙，被马斯克点赞！外国网友震惊了

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响