引言
在人工智能与智能网联汽车融合发展背景下,数据、算力和算法作为人工智能三大核心要素,在智能网联汽车尤其是智能驾驶领域发挥着重要作用。然而,我国在智能驾驶数据流通和算力发展等方面面临挑战。为打破数据流通壁垒、突破算力发展瓶颈以及满足企业发展需求,探索构建行业级智能驾驶智算数据平台成为行业共性话题。
一、人工智能与智能网联汽车融合发展现状
人工智能全面赋能智能网联汽车产业发展。当前,人工智能技术已经在智能驾驶、智能座舱、汽车研发等多个方面得到应用。智能驾驶方面,人工智能赋能智能驾驶场景生成、模型训练等。智能座舱方面,利用大模型可实现更加丰富和个性化的交互体验。汽车研发方面,利用大规模的研发数据对生成式算法进行训练和优化,辅助产品研发。
数据、算力和算法成为智驾研发关键要素。基于人工智能技术的智能驾驶算法开发,离不开海量数据进行训练,以保障其泛化性能,拥有大数据运算能力的智能驾驶智算数据平台作用凸显。车企纷纷着力构建智算数据平台,智算数据平台逐渐成为智能网联汽车算法开发的重要工具,大数据大算力大模型成为一种新的智能驾驶研发范式。
二、智能驾驶数据流通和算力发展面临挑战
数据方面
车企对智能驾驶高价值长尾数据有共用需求,但数据汇聚流通难度较大,主要是面临合规问题以及数据出售意愿不强。
智能驾驶数据流通面临合规问题。测绘地理信息有关数据流通需要具备相应资质的图商进行审核,在此限制下,这部分数据甚至在车企内部流转也有困难,进而使数据交易受到限制。
当前阶段一些企业的数据出售意愿不强。车企目前主要关注数据积累,有购买意愿但出售意愿不强,数据资源整合可能需要政府层面牵头推进。
数据合规与研发效率之间存在一定矛盾。在一些车企的数据合规实践中,与合规相关性不强的内容往往也被限制在合规区中,严重影响研发效率。亟需处理好合规与效率之间的关系,找到平衡好合规与效率的有效手段。
算力方面
国内车企在云端算力方面与特斯拉存在较大差距,应科学看待两者差距。
特斯拉算力规模领先优势明显。特斯拉2022年2月已拥有约2 EFLOPS的云端算力集群,并将在2024年10月启用自研云端超算中心Dojo,算力规模将达到100 EFLOPS,远超国内车企。并且,A100和H100进口受限,算力芯片难以获取,差距进一步扩大。
分析差距应考虑算力分配情况。特斯拉的算力不仅应用到汽车领域,而且也应用到人形机器人等领域。应认识到与特斯拉的差距,但不能简单对标其整体算力,而应考虑特斯拉的算力资源分配情况,即有多少算力资源真正应用到汽车及智能驾驶领域。
三、探索构建行业级智能驾驶智算数据平台
探索构建行业级智能驾驶智算数据平台,形成服务于智能驾驶算法模型开发及测试的行业级数据、算力和算法综合服务平台,使数据、算力和算法形成协同合力,是应对人工智能技术融入智能驾驶领域、破解落后局面、实现赶超的最有潜力途径。
平台建设的未来目标,应是面向行业赋能的通用工具和基础性平台,一方面赋能车企、头部企业,另一方面为其他企业提供应用和服务平台。可优先考虑进行数据和算力方面的建设,有数据和算力才能去打磨模型,并且考虑由易到难逐步推进。
四、行业级智能驾驶智算数据平台问题思考
平台建设需要考虑哪些问题?
考虑是否呼吁推动行业级平台建设。考虑站在行业角度,联合跨行业跨领域力量推动行业级智算数据平台建设,并将其视为行业公共基础设施的一部分,推动算力资源整合协调。
考虑是否与车路云一体化建设相结合。应考虑清楚智算数据平台与车路云一体化云控平台之间的关系,以及两者如何进行协同。考虑是否将智算数据平台与车路云一体化云控平台相结合形成一套体系,充分利用已有投资和规划实现平台落地。
考虑是否建立巨大的数据合规云平台。为满足车企的数据共用需求及合规要求,可考虑建立巨大的合规云,使数据在满足安全要求的前提下进行流转,数据使用时不流出合规云。
平台建设需要生态支撑和算子支持。软硬件生态应作为建设重点,考虑建设国产算力生态,并在平台中实现国产化的信创方案,同时做好国产芯片的性能优化。
平台建设需要进行集群算力的优化。算力提升不是简单的设备堆积,应关注算力优化,可针对数据传递过程、针对模型本身进行优化。应关注数据从采集到应用整个过程中的工具链,实现过程加速。
平台运营需要考虑哪些问题?
考虑是否市场化运营。考虑是否寻找合适的商业模式,形成商业闭环,以撬动更多资源,精准对接供需关系。平台需要让各方受益,至少数据生成方、运营方和用户方能够受益,实现可持续发展。
考虑运营成本和效率。算力、算法和数据只有形成规模足够大、成本足够低的基础设施,才能形成商业闭环。在运营方面,西部地区地广人稀、能源低成本,在运营效率上具有优势。
综合考虑、多方合作。智算数据平台不仅需要考虑算力规模和商业模式,还需要从底层的机房硬件、芯片、算力调度、算法模型等方面综合考虑。
应建立数据流通机制。数据交易面临数据安全、合规和确权等问题,应建立数据交易机制,采用偏市场化的方式进行数据资源互换。
应建立算力分配机制。目前国内算力资源的现状是,一方面大量GPU算力资源闲置,另一方面有用户反馈算力资源不足。建议通过制定规则或建立平台等方式,将分散的闲置资源集中起来分配给有需求的用户。
需要哪些标准化支持?
平台标准化。智算数据平台建设需要有依据、有标准支撑,需要构建智能驾驶智算数据平台标准体系并开展亟需标准研制,支持平台建设及运营。标准定位方面,应理顺标准体系之间的关系,考虑汽车行业与算力等其他行业的标准之间关系。标准内容方面,应更多考虑平台基础架构问题、匹配问题,以及对落地有直接帮助的标准,比如架构、接口、格式类标准,并甄别哪些需要标准化、哪些需要个性化。同时,考虑通过标准体系研究统一合规要求,避免标准不统一带来合规机房的不统一。
数据标准化。梳理对数据的根本需求,形成相对明确的标准。数据共用方面,需要解决数据通用性问题,针对不同车型采集的数据无法实现共用的问题,考虑设立数据标注、数据接口相关标准。数据质量方面,为提升数据覆盖度,考虑关注高价值场景,研究清楚特殊场景的特殊程度以及行业真正需要的长尾场景的数据类型。
(本文为《智能驾驶智算数据平台发展及标准体系研究》共性课题启动会与会专家观点的总结分析,未经专家审定。相关内容将在课题中进一步研究,欢迎关注和参与课题研究工作)
联系人:
杨志成
15933525406(同微信)
yangzhicheng@china-icv.cn