撰文 / 马晓蕾
编辑 / 张 南
来源 / Techcrunch,作者:Kyle Wiggers
说自动驾驶汽车正在被“清算”,这一点都不夸张。
10月底,加利福尼亚州车管局(DMV)暂停了通用自动驾驶子公司Cruise运营Robotaxi的许可。而那起将行人卷入车底的荒诞交通事故只是导火索,深层次原因是监管与公众对事故频发的自动驾驶技术早已失去信任。
就在11月初,Cruise召回了整个自动驾驶汽车车队。与此同时,旧金山的抗议人士走上街头,反对该市被当作新兴技术的试验场。
但有一家初创公司表示,它掌握着让自动驾驶更安全的关键技术,并认为这一关键将扭转反对者对自动驾驶的态度。
为汽车制造商合作伙伴开发自动驾驶软件的公司Ghost Autonomy宣布开始探索多模态大型语言模型(LLM)在自动驾驶中的应用。这是一种既能理解文本又能理解图像的人工智能模型。当下爆火的ChatGPT就是LLM应用的典型代表。
这一赛道已经吸引了大量企业或创业者投入。为了实现LLM在自动驾驶领域的应用,Ghost与ChatGPT的提供商OpenAI合作,通过该公司的初创企业基金获得了OpenAI系统和OpenAI密切合作方Microsoft Azure资源的早期访问权,此外还获得了500万美元的投资。
Ghost联合创始人兼首席执行官约翰·海耶斯(John Hayes)向媒体表示:“LLM提供了一种理解罕见场景的新方法,为复杂场景增加了推理,而目前的模型在这方面还存在不足。随着 LLM 的速度越来越快,能力越来越强,基于LLM的分析在自动驾驶领域的用例只会越来越多。”
Ghost究竟是如何将旨在解释图像和生成文本的人工智能模型应用于控制自动驾驶汽车的呢?根据海耶斯的说法,Ghost正在试运行一款软件,该软件依靠多模态模型来进行更高难度的场景解释,根据车载摄像头拍摄的道路场景图片,向汽车控制硬件提出道路决策建议(例如移动到右侧车道)。
海耶斯说:“在Ghost,我们将努力对现有模型进行微调,并训练我们自己的模型,最大限度地提高可靠性和道路性能。例如,简单的模型可能难以驾驭施工区这一复杂的路况,临时车道、手持标志牌的交通协管员不断移动,以及与其他道路使用者的复杂组合。事实证明,LLM能够以类似人类的推理水平协同处理所有这些变量。”
不过,专家对此持怀疑态度。
华盛顿大学专注于法律和数据伦理研究的博士生凯斯(Os Keyes)向媒体表示:“Ghost只是把LLM作为营销流行语。事实上,你把这个宣传语换成区块链,并把它发回2016年同样说得通,显然这是一个骗局。”
凯斯认为,LLM根本就不是自动驾驶的工具。他断言,LLM并不是为此目的而设计或训练的。
伦敦国王学院高级讲师迈克·库克(Mike Cook)的研究重点是计算创造力,他同意凯耶斯的总体评价。他指出,多模态模型本身远没有搞清楚,OpenAI 的旗舰模型会凭空捏造事实并犯下人类不会犯的基本错误,比如错误地复制文本和弄错颜色。
库克说:“我不相信计算机科学领域有什么灵丹妙药。我们根本没有理由让LLM处理像驾驶汽车这样危险而复杂的事情。世界各地的研究人员已经在努力寻找方法来验证LLM在写作文等相当普通的任务中的安全性,而将这种不可预测且不稳定的技术应用于自动驾驶,往好了说是不成熟,往坏了说是被误导。”
但是,海耶斯和OpenAI不会被劝退。
在一份新闻稿中,OpenAI的首席运营官兼OpenAI初创基金经理Brad Lightcap说,多模态模型有可能将LLM的适用性扩展到许多新的用例,包括自动驾驶和汽车。他补充道:“多模态模型能够通过结合视频、图像和声音来理解和得出结论,可能会创造出一种新的方式来理解场景,并在复杂或不寻常的环境中进行导航。”
至于海耶斯,他认为LLM可以让自动驾驶系统从整体上推理驾驶场景,并利用广泛的世界知识来驾驭复杂和不寻常的情况,甚至是它们以前从未见过的情况。他声称,Ghost正在通过车队积极测试多模态模型驾驶决策,并与汽车制造商合作,共同验证并将新的大模型集成到Ghost的自动驾驶堆栈中。
海耶斯说:“毫无疑问,目前的模型还不能完全用于汽车的商业用途。要提高它们的可靠性和性能,还有很多工作要做。但这正是特定应用公司在这些通用模型上进行研发的市场所在。像我们这样拥有大量训练数据和对应用有深刻理解的公司将极大地改进现有的通用模型。模型本身也将得到改进。最终,自动驾驶将需要一个完整的系统来提供安全性,其中包含许多不同的模型类型和功能。多模态模型只是帮助实现这一目标的工具之一。”
这是对一项未经验证的技术许下的承诺。Ghost能做到吗?像Cruise和Waymo这样资金雄厚、资源充足的公司在测试自动驾驶汽车多年后仍遭遇滑铁卢,谁敢对此下定论?