自动驾驶大模型，千万别入戏太深

作者：汽车通研发布时间：2024-02-04

自动驾驶人工智能 AI大模型大语言模型

美国的CES展，长久以来都是人们观察全球科技风向的一个重要风向标。

在2024年的CES展上，两位人工智能领域的专家，李飞飞和吴恩达做了一场对谈，在这场谈话中，他们提及了一个足以影响自动驾驶行业的关键点。

那就是，AI大模型开始从“大语言模型”向“大视觉模型”的转变，AI大模型不但能理解语言，还能生成图像，还有对图像进行分析，让计算机更好地理解图像的含义，从而给自动驾驶带来质的飞跃。

对此，本文分为两部分：

为什么李飞飞和吴恩达会说“大视觉模型”将给自动驾驶带来质的飞跃？

为什么我们对自动驾驶的AI大模型别入戏太深？

大视觉模型会带来颠覆性革命吗？

当一个人驾驶车辆时，不是简单地把着方向盘，控制着油门和刹车，还要处理很多复杂的事情。

你要看交通信号，你要看各种路边的标志物，你要判断路上有什么东西。如果前面路上有一只小鸭子在慢慢走，你得踩刹车；但是如果是一只鸟，你可以想象车开过去它就会飞走，你就不用减速。如果路上有个塑料袋，你可以直接碾压过去；但如果那是个石头，你就必须绕着走。

你对路面状况有深刻的理解，这种理解和你的生活阅历、和你平时积累的经验有关。最起码你得知道塑料袋是什么，石头是什么，鸟是什么，但汽车并不知道。

要想让汽车知道这些东西，那这背后涉及的技术可太难了。现有的图形识别能力，哪怕把障碍物换个角度，计算机都看不出来。更何况人的路面知识无穷无尽，你根本就没办法把每个知识都告诉计算机，而它自己根本没有思考能力。

当下，自动驾驶搞的都是狭义AI，走的是机器学习的路线。计算机把路上的所有物体，包括建筑物、其他的车、行人都当成是三维模型，它不再试图理解这些物体。

计算机只关心这些物体的移动趋势，估算每个物体的速度，预测它的路线，看看跟车的路线会不会发生冲突，如果有冲突就踩刹车或者绕着走。

然而，真实的路面上会有各种意外。Google一直在训练自动驾驶技术，他们遇到过各种各样奇怪的情况。有一次有几个小孩在高速公路上在玩青蛙。还有一次，一个残疾人，坐着电动轮椅，在路中间追逐一只鸭子，鸭子绕圈跑，她也绕着圈追。那你说像这种情况你能一下子就准确预测这些人的行动路线吗？

自动驾驶汽车识别路边的物体，都是靠把激光打到各种东西上再反射回来。可如果在下雪或者下雨，激光可能打到雪花或者雨滴上反射，汽车就可能对周围物体有重大误判。

计算机能不能保证看懂路边标记限速、慢行的交通标志牌？图形识别技术非常难，曾经，Google自动驾驶技术把奥巴马夫人米歇尔给识别成一只猩猩，贻笑大方，而且假如标志牌有损坏，或者上面被人贴了小广告，那汽车就很可能无法识别。

2016年，一个特斯拉车主违反规定，把车完全交给自动驾驶，结果因为汽车没有识别出来前面的一辆白色卡车，它可能以为那是天上的白云或者别的什么东西，司机当场死亡。当然这是司机犯了错误，但这恰恰也说明自动驾驶技术非常容易遭遇意外。

但是，“大视觉模型”却可能改变这一切。

2023年9月，OpenAI发布了测试版的GPT—4V，能看懂图片，能解读电子竞技比赛。也就是说，GPT对图像和视频中的各种事物有了很强的理解能力，在测试中，让GPT—4V看不同驾驶场景的图像和视频都获得了惊人的突破，表现出了超越现有自动驾驶系统的潜力。

而且，不只是识别数据，大模型还能生成自动驾驶数据。比如，一家来自英国的自动驾驶公司Wayve就做出了尝试，他们开发了一个名叫GAIA-1的生成式AI模型，人们输入视频和文本，AI就会根据需求创建逼真的驾驶视频。

GAIA-1可以学习和理解有关驾驶的很多概念，包括汽车、行人、道路布局、交通灯、建筑物等等，能够生成很多复杂路况，对走视觉路线的自动驾驶系统非常有帮助。

值得一提的是，来自UC伯克利和约翰斯·霍普金斯大学的研究人员，提出了一种全新的建模方法，可以在不使用任何语言数据的情况下，训练大视觉模型。

简单来说，就是大视觉模型只需看图训练，就能理解和处理复杂的视觉信息，不用依赖语言数据。可见，大视觉模型的进程才刚刚开始，它有巨大的潜能尚待挖掘，这对特斯拉的自动驾驶纯视觉方案是个巨大的利好。

为什么我劝你别太高估大模型了

今天，在自动驾驶领域，各种概念层出不穷，每当有新技诞生，都会有人惊呼，全新的时代要诞生了！

但实际上，大部分人没有人意识到，自动驾驶的边界就是人工智能的边界，而人工智能的边界是数学的边界，没错，数学是有边界的。

1931年，数学家哥德尔认为，许多数学家试图构建一个既完备又一致的数学体系，这样的的努力方向，是错误的，数学体系不可能既完备又一致。也就是说，保证了完备性，结论就会矛盾；保证了一致性，就会有很多结论无法用逻辑推理的方法证明。这提醒人们，让人们知道，数学不是万能的，世界上很多问题不是数学问题。

比如，你正在以很快的速度开车，突然发现前边有一群小学生在马路上打闹。要避让这些小学生，你就会撞到路边的建筑物墙上，而如果撞墙，你的生命安全就面临危险。请问在这种情况下，你是选择撞墙还是选择撞向小学生呢？

如果汽车厂商告诉你，我们这个车就是讲道德的，我们的自动驾驶系统在这种情况下一定会首先确保行人的安全，请问这样的车你会买吗？你会让汽车做决定，牺牲你自己吗？

可见，这是一个伦理道德问题，没有标准答案，人工智能再强大，也无法计算这样的问题。

其次，许多情况，无论用什么模型，用多么强的算力，也都算不出来。

在数学上，还有一个经典命题，1900年，数学家希尔伯特就提出过一个疑问：对于某一类数学问题，有没有一个方法，通过有限步，就能判断它有没有解？根据希尔伯给出的结论，很多数学问题，就算有算法，但有没有解是不知道的。

实际上，自动驾驶就属于这类问题，到底有没有解，我们不知道。

今天，所有专家都在说，只要数据够多，自动驾驶大模型早晚能成熟，实际上，对自动驾驶系统来说，大部分情况下，能用2%的数据就能训练一个能解决路面80%的情况的自动驾驶系统，但是剩下那20%的情况，你就是再用再多的数据也未必能解决。

比如马斯克的纯视觉FSDV12，在想象中，纯视觉方案有现成的AI算法可以模仿，但实际量产过程中有无数的细节需要完善，想象中，只要在逻辑上做到完美的算法就行了，但实际上算法需要大规模的数据喂养。

要知道，马斯克对特斯拉FSD倾斜了无数资源，比如，在FSD的开发过程中，特斯拉积累了超过90亿英里使用里程，这是全球最大的自动驾驶数据来源；为了利用这些数据，特斯拉不断扩充其超算集群，到处挖顶级AI工程师，自研算法、芯片和大算力GPU。

但即便如此，你也未必能喂得出来，要知道，马斯克曾公开表示，他低估了纯视觉方案的难度，他感到非常抱歉。

为什么会这样？比方说，美国50个州都有各自的交通法规，各地的气候条件和路况都不一样，这还不算美国和中国更不一样。这意味着什么呢？这意味着在一个地区训练出来的自动驾驶方案，换一个地方就完全没用了。所以任何自动驾驶大模型其局限性都很大，不能通用，你必须在每一个地区都采集大量的数据才行。

进一步说，即便算力增加也无法解决自动驾驶大模型的普适性问题，计算能力增加，原来可以计算的问题会算得更快，甚至瞬间解决，但是不可算的还是不可算。

我们打个比方，你如果有一台制冷机，可以将温度降低。如果你有一个超大功率的制冷机，温度降低得会快得多。但是，用再多、再大的制冷机也不可能将温度降到绝对零度以下，因为那是物理学的一条边界。

总结而言，由于数学的边界无法被突破，所以今天任何的自动驾驶方案，大家可千万别入戏太深。

自动驾驶大模型，千万别入戏太深

推荐体验

相关资讯

大模型“杀死”自动驾驶

大模型+自动驾驶专题：AI大模型在高阶自动驾驶中的应用

对话李志飞：AI大模型创业，CEO千万别忽悠自己

人工智能，千万别低估了欧洲！

自动驾驶，“祛魅”AI大模型

近期资讯

全面解析NAS的功能与使用方法，助你轻松管理数据

美的集团获得发明专利授权：“命名实体识别方法、电子设备、存储介质及产品”

纯血鸿蒙版 QQ 应用获 9.1.18 邀测升级

2024通明湖论坛在京开幕发布多项信息技术创新成果

济南艺高取得可调节的纵剪分条剪切装置专利，切刀调节便利

博世WGA152000W：10公斤变频滚筒洗衣机，国补610元下的精选

美的集团获得发明专利授权：“洗涤电器”

国补920元钜惠：石头分子筛洗烘一体机Z1，享高端洗烘体验

如何合理调节行距提升文本可读性与美观性技巧分析

奥比中光：推出多款3D视觉新品适配人形机器人

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响