AI大模型、空间计算已“上车”，商汤绝影全球首创座舱3D视线交互即将亮相

作者：文汇报发布时间：2024-04-19

AI大模型、空间计算等前沿技术在汽车上的应用落地来得比预想更快。去年，Apple Vision Pro的横空出世让人们领略到了3D交互的魅力，在即将到来的2024北京国际汽车展览会，上海人工智能企业商汤科技将带来两大全新座舱3D交互演示：3D Gaze高精视线交互和3D动态手势交互。

同时，作为行业首个提出感知决策一体化自动驾驶通用模型的公司，商汤还将带来面向量产的真·端到端自动驾驶解决方案的上车演示首秀，还会展示以多模态场景大脑为核心的AI大模型座舱产品矩阵。

Vision Pro“裸眼上车”

3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术，能让用户通过手势“隔空”进行各类座舱交互。作为全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术，商汤绝影的3D Gaze高精视线交互将让用户通过眼神控制中控图标。商汤绝影这两大舱内3D交互功能相互配合，如同“Vision Pro”裸眼上车，为用户打造更符合人类直觉的自然交互体验。

在智能座舱方面，商汤绝影已打造出“多模态场景大脑”为核心的AI大模型座舱产品矩阵，通过多模态大模型、大语言模型、文生图模型等能力组合，为智能座舱注入强大的环境理解、逻辑思维和内容生成能力。

商汤绝影上车的AI大模型将能够基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物，并进行优质景点推荐。不仅如此，基于强大的多模态感知能力，搭载商汤绝影方案的车辆可以准确感知并识别车外的信息，包括周围车辆的车型、标志性建筑物等，以语音、图片或者视频等方式为舱内人员提供更为准确和全面的内容，帮助用户了解和掌握外部环境信息。

“最佳论文”解决方案将迎来首秀

2022年底，商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD，并于次年荣获2023年国际计算机视觉与模式识别会议（CVPR）最佳论文。

在本届北京车展上，商汤绝影也将带来面向量产的感知决策一体化的真·端到端自动驾驶解决方案——UniAD，并首次面向公众展示UniAD的实车道路演示成果。

随着自动驾驶技术的不断演进，基于规则的智驾方案需要多传感器融合感知且大量投入资源来应对无保护左转、人车混行等复杂路况。而商汤绝影UniAD方案仅凭摄像头的视觉感知，无需高精地图，通过数据学习和驱动就能够应对城区的复杂环境。不仅如此，在传统方案较难突破的无中线的乡村道路上，UniAD同样可以自如行驶，完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作，真正做到“像人一样开车”。

为了增强端到端自动驾驶方案可解释性和交互能力，依托多模态大模型，商汤绝影已研发出新一代自动驾驶大模型DriveAGI，适用场景更宽、性能更高、门槛更低，体验上做到可感知、可交互、可信赖。作为下一代自动驾驶技术，DriveAGI也将在车展期间进行前瞻预览。

作者：沈湫莎

文：沈湫莎图：张伊辰摄编辑：沈湫莎责任编辑：任荃

转载此文请注明出处。