当前位置:首页|资讯|商汤|自动驾驶|汽车

商汤智驾及座舱大模型产品亮相WAIC,可识别语音图像手势,智驾更像老司机

作者:车东西发布时间:2024-07-18

车东西(公众号:chedongxi)

作者 | 檀心

编辑 | 志豪

车东西7月5日消息,近日2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)于7月4日-7月7日在上海举行,商汤绝影多款基于全新发布的商汤日日新5.5多模态大模型打造的智能驾驶和智能座舱产品亮相。

在展会上,商汤绝影展示了可解释、可交互的自动驾驶大模型DriveAGI,同时还发布了有关车载生成式交互界面的多款车载应用。此外,商汤绝影L4级别自动驾驶小巴也亮相本届WAIC,并在承担大会接驳任务。

此外,在WAIC上,商汤科技还发布日日新5o大模型,实时流式多模态交互体验对标GPT-4o,并采用混合端云协同架构。日日新5.5体系也进行了升级,数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。

▲王晓刚在论坛分享商汤绝影最新的技术和产品进展

一、可融合语音文字手势等模态 提供更加丰富人机交互体验

多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行融合,提供更加丰富且自然的人机交互体验。

过去许多模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。

日日新5.5体系支持的全新商汤多模态大模型是一种端到端的模型,也就是文字、语音、视频等模态一同输入,模型统一处理后输出相应模态的信息。今年4月,日日新5.5体系也进行了升级,数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。

此前GPT-4o的发布为消费者展示了多模态实时交互的方式,也开始帮助释放多模态大模型的商业落地想象空间。

相较于手机,智能汽车更适合承载多模态大模型的落地场景。因为智能汽车内外的各种摄像头是常开的,用户可以实时跟汽车通过多模态的方式进行交互。同时,智能汽车的保有量不断增加,能够产生丰富的终端用户反馈和数据信息,让模型不断迭代成长。

这些因素综合展现了一个令人激动的未来智能汽车发展方向:从智能汽车正在进化为超级智能体,多模态大模型则是这一进程的核心驱动力。

智能汽车的人机交互正在从以车为中心向以人为中心转型。在这个转型中,现阶段用户仍需用文本或语音给智能汽车提供信息和数据以获取被动式的服务,其他的信息都丢失了,尚未真正做到主动服务用户。而商汤绝­影用多模态大模型打造的智能汽车交互方式,可以覆盖座舱、汽车周边的环境,让有关于“人”的信息不会被忽视,甚至它还突破了空间的限制,实现舱内用户与更广阔的物理和数字世界的联接。

▲商汤绝影车载端侧8B多模态模型性能

车端模型部署能力是智能汽车交互革新不可或缺的技术保障,商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型,让商汤原生多模态能力能够快速落地智能汽车。

在本届WAIC上,商汤绝影对外展示了在3个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。商汤绝影车载端侧8B多模态模型可以实现首包延迟低至300毫秒以内,推理速度40Tokens/秒,为更好的人车交互奠定了基础。

二、DriveAGI可解释、可交互 多模态让端到端智驾安全可信赖

2022年底,商汤及其联合实验室提出了感知决策一体化自动驾驶通用模型UniAD,今年北京车展,商汤绝影展示了UniAD的实车上路成果,展示了其端到端自动驾驶的能力。

北京车展以来,UniAD稳步前行,通过持续的数据采集、真值生产、模型训练、实车测试,UniAD系统稳定性大幅增强,体验连续性和舒适性不断提升。在本届WAIC上,商汤绝影展示了只搭载7个摄像头的UniAD,在无图情况下实现城区复杂道路、乡村小路等场景一镜到底的实车演示,端到端智驾模型持续迭代进化。

UniAD显著提升了智驾系统的驾驶能力,但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案,进一步具备对开放世界的感知、推理、决策及交互能力,将是智能汽车走向超级智能体的重要标志。因此,商汤绝影研发了首个应用于驾驶决策规划的智驾大模型,即基于多模态大模型打造的DriveAGI,让端到端智驾可解释、可交互。

DriveAGI增强了端到端系统的可解释性,不仅让车辆能够更像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。

目前,商汤绝影DriveAGI智驾大模型能在无限宽标识的道路上,安全顺利穿过两个石墩形成的狭窄通道;它还能准确辨识并理解包括公交车道、潮汐车道及施工车道等各类交通标识,并自主进行变道或规避,甚至当后方有救护车接近时,DriveAGI会进行思考推理,最终进行及时变道避让。

▲DriveAGI不仅能识别救护车,还能做到主动让行执勤救护车

多模态大模型还赋予了DriveAGI强大的可交互性,用户不仅可以通过问询让DriveAGI解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。例如,未来在自动驾驶状态下,导航指示车辆需在下个路口调头以抵达目的地,但驾驶员知晓可在前方有近路可以直接转弯,那么他只需对系统说出「直接左拐」,系统便会根据当前路况来执行这一指令。

UniAD和DriveAGI智驾大模型的惊艳表现依赖于商汤绝影强大的模型能力,同时也需要大量的高质量数据支持学习和训练。作为「新质生产力」,以多模态为代表的大模型极大提高了端到端智驾训练、迭代的生产效率。

以真实的多模态数据为基础,商汤绝影的世界模型、交通流仿真大模型等一系列云端大模型源源不断生产出高质量数据,同时通过各个大模型之间相互协同,实现场景生产、交通流仿真、真值生产、系统诊断等能力,打造出智驾大模型时代的端到端数据闭环,为端到端自动驾驶方案的落地与进化提供有力的保障。

三、多模态融入智能座舱 人车交互更便捷及个性化

今天的智能汽车配备了丰富且强大的硬件,能够为用户打造一个独立的交互环境,它是AGI落地的最佳场景。

面向智能座舱,商汤绝影正在打造多模态大模型引擎产品,构建一系列AI大模型座舱产品矩阵。在本届 WAIC上,商汤绝影正式发布生成式交互界面产品的多个车载 AI Agent,

依托于 AI 大模型的即时生成和修改交互界面的能力,FlexInterface在大模型解析用户需求的基础上,结合设计系统的框架和范式,实现高度动态和个性化的界面生成。无论是天气、时间、节日、纪念日,还是周围环境变化,FlexInterface 都能自动变换界面风格。

AgentFlow 通过大模型的推理能力,模拟人类点击操作,实现对APP和网站的直接操作。用户只需使用自然语言,就能让AI自主选择多个工具完成复杂任务,无需主机厂进行额外的研发适配。用户还能让AgentFlow自动搜索并预约适合看球的酒吧,提供从搜索到预订的一站式服务。

在商汤绝影的现场演示中,用户通过FlexInterface生成了一个「欧洲杯」风格的主题,大模型自动生成具备欧洲杯元素的中控屏幕桌面和图标;同时,用户还能通过AgentFlow随时播放欧洲杯或足球相关的音乐。

▲FlexInterface通过大模型生成的「欧洲杯」主题的车载界面

除此之外,本届WAIC上,商汤绝影在传统智能汽车「哨兵模式」的基础上打造了「多模态哨兵」, 能够理解并应对开放世界中可能对车辆造成损害的各种潜在随机危险行为,诸如划车、喷涂车身、拍打砸车、拉拽门把手、撬门以及踹车等,确保车辆安全无死角。

四、多款产品已经量产落地 涵盖智驾和座舱领域

商汤绝影不只是在大模型技术上取得突破,多款产品已经量产落地。

在智能座舱领域,商汤绝影的大模型产品已经在多家主流汽车制造企业的量产车型中得到广泛应用。例如,商汤的大模型已应用于SU7的小爱语音助手上。

6月25日,翼真 L380正式上市,最新版本商汤日日新大模型实现量产上车,基于商量大语言模型和秒画文生图模型,翼真 L380具备AI绘图等多款AI大模型座舱产品和功能。

在智能驾驶领域,商汤绝影的量产智驾产品已落地包括广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等品牌及车型,高速NOA等功能也开始落地,同时绝影还在推进更多车型交付。6月初,广汽和一汽入选国内首批L3试点项目,商汤绝影为他们提供面向L3的感知算法。不止如此,商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。

更高阶的L4自动驾驶领域,商汤绝影自动驾驶小巴也在WAIC 2024上承担接驳任务,提供多个地点之间的需求响应式自动驾驶巴士出行体验。

目前,绝影L4级别的自动驾驶小巴的测试与运营总里程累计已超3,000,000公里,并在江苏无锡、陕西西咸新区等多地开展自动驾驶接驳服务。

在上海临港,绝影L4级自动驾驶小巴已经面向公众进行日常运营。商汤绝影与上海临港新片区公共交通有限公司共同打造的智能网联公交场景,采用“响应式公交”模式按需响应,已实际投入的医疗专线和上海海洋大学专线,预约乘坐人数累计已超过16,000人次。

结语:商汤多模态大模型加速智能汽车驶入AGI时代

商汤绝影基于其日日新5.5原生多模态大模型,打造了包含智能驾驶和智能座舱领域的产品,并且已经量产落地,并有了不错的市场表现。

商汤绝影的大模型产品正在融入智能汽车和智慧出行的方方面面,开辟全新的出行范式,加速智能汽车驶入AGI时代。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1