图片来源@pixabay
2022年10月13日,伴随联想HPC温水水冷解决方案一期项目的正式完结,仅用84天,位于湖州长兴的吉利星睿智算中心就将保有的传统风冷机房改造为液冷机房。
钛媒体App走访该智算中心注意到,该机房配置了当时最新一代英特尔CPU和英伟达GPU作为计算核心,其中CPU建设规模达到4万核。同时,基于液冷方案下,单颗CPU性能Linpack效率达到87.19%,最终实现实测算力3.54PFlops,整体PUE值降到0.8左右。
该项目支撑了吉利汽车研究院在智能仿真平台上的业务运营,如工艺开发、物流仿真、新车型数字化动态仿真分析、三维仿真资源库、轻量化展示平台等,为工程师们加快新车研发。为智能仿真平台提供强大算力也成为吉利面临的最直观问题之一。
这是吉利星睿智算中心在2022年建设期间的一抹瞬影。据后续统计,该智算中心云端算力已达到102EFlops,支持AI模型训练速度提升超200倍;并发计算达500万辆汽车;智驾模式研发8小时可完成1000个;语言大模型参数规模达百亿/千亿级;能源动力管理服务BMS智能电池;智能制造工业计算速度提升600倍。
从支持AI大模型训练,到智能驾驶系统研发,再到电池安全及智能制造等产品全链条的智能化,算力已然成为其新质生产力。一些头部汽车行业相关企业生态,显然认识到这一点,事实上也在近些年掀起了一波自建智算中心+合作私有云托管的浪潮。
大模型“上车”,智算加快
据钛媒体APP观察,在大模型应用变化的带动下,车企对智算中心的建设需求,正迅速演变到基于“端到端+大模型”的技术方案,以支撑车辆研发及车本身的智能化。
以主机厂为代表,车企对端到端大模型的投入已有一段时间,并依据各自实力有所路径分化。先一步完成算力基建和数据基础车企更倾向于技术栈自研,一些车企也会选择与AI厂商或云厂商合作搭载上该技术方案。云计算、AI等科技企业,推出了不少面向汽车行业的AI产品和解决方案。
而端到端大模型“上车”,目前主要围绕智能座舱和自动驾驶两个维度展开:智能座舱考验人机交互体验,不仅限于语音,还有视觉、手势甚至情绪识别,以此洞察驾驶车主在不同环境中的需求;而自动驾驶,无论是辅助驾驶,还是全自动无人驾驶,更考验汽车对外部环境感知、路径规划,以及汽车自身动力系统的判断决策能力,从而保障对车辆驾驶的安全性。受限于大模型本身场景适用性和成本等因素,前者的产品落地性更强,后者价值性更高但也更难落地。
此外,偏用户侧的用户体验、运营环节,随着主机厂对直销模式和子品牌的重视,市面上也出现了一些类似于Agent的营销销售助手。
研发和使用大模型,意味着要做训练和推理。因而,任何一家车企必然面临算力投入的挑战,并且随着训练数据和模拟仿真的极大突破,越来越依赖于算力。
特斯拉很早就开始这一方面布局。据最新数据,其Dojo(道场)数据中心算力在今年10月已达到100 EFlops,实现性能四倍提升,5倍存储空间节省。并且,为增强网络带宽和减少延迟,并减少对英伟达GPU的依赖,特斯拉还推出了专有AI芯片,用自研芯片配合以CPU、GPU为Dojo提供支持。“未来18个月实现搭载一半特斯拉AI芯片,一半英伟达或其他芯片。”今年6月,马斯克发帖时指出。
2022年开始,中国车企也加快对智算中心的建设步伐。除了上述的吉利星睿智算中心,还有长城汽车旗下毫末智行的“雪湖·绿洲”智算中心,小鹏汽车与阿里云在乌兰察布合作建成的智算中心“扶摇”,理想汽车和火山引擎共建的智算中心,长安汽车智算中心,比亚迪云辇智算中心等等。
目前车企会联合云厂商共建智算中心,或者私有化部署并托管到云厂商的数据中心上,如果车企在生态中缺乏某些C端软件或工具链,也会采购云厂商某些公有云产品,典型的大混合云架构体系。
被“逼出来”的异构智算
与CPU或多核芯片就能解决的通用算力、超算场景不同,智算并不局限于某些超算或高性能计算的认知,而是围绕GPU+CPU+其他AI加速器为主的异构或大计算。
出现该现象的原因是多方面的:
其一,由于高级侧高端算力芯片的产能不足,以及供应链不稳定导致的卡脖子问题,尤其是英伟达GPU芯片被封禁的风险,车企往往会考虑到这一点,有选择性地进行异构部署,从芯片到调度平台到模型框架、应用。
为了弥补这一点,会选择跟国产芯片厂商合作测试,在细分领域做国产芯片储备,或者跟政府共建共享。
其二,客户业务场景融合导致需要多类芯片去承载。“现在客户场景里多种技术场景在融合,试图从客户视角来拆解算力场景其实挺难的。客户场景不是单一的,客户的业务场景出现了融合,比如会考虑AI化、视频化等等。”国内某头部云厂商智算产品负责人此前对钛媒体表达。
而异构带来的真正挑战是“组合”。由于受到更上游英伟达等对于GPU及相关专用芯片的限制,即便适配国产芯片,那么不同性能、不同场景下的异构方案将变得日常。
一位服务器厂商负责人与钛媒体交流中指出,现在GPU厂商都会考虑到芯片互联的问题,因为他们最早在设计之初并不是为大模型训练服务的,要么照着英伟达4090或A100直接抄。另外,英伟达是按“独立集群+外置存储”设计,同样也会导致对GPU的利用率不高。而且,不同国产GPU厂家的能力也会有参差,用户需要有不同选择去弥补这种参差。
目前8卡模组是英伟达专为大规模并行计算和深度学习任务设计的解决方案,市面上主流AI服务器配置也基本按照8卡模组,这种设计方式也带来了另一个需求:为了保证性能,需要高效的散热设计和灵活的扩展性以及互联通信能力。
一位云厂商负责人对钛媒体表示,从绿色算力的角度,单颗芯片功耗越来越高,热量达到一定程度时芯片密度是无法继续扩展的,这种情况下,液冷技术是必然选择。同时还要有绿色及性价比合适的电力供给。
钛媒体与浪潮、联想、新华三等国内多家服务器厂商负责人交流中也获得了基本共同的战略思路:布局异构算力,追求全栈液冷,提高算力效能。
事实上,智算中心从一开始就已经围绕绿色和满足市场供需作为建设底色。智算中心成本降低将是未来很重要的问题,这也将影响大模型的研发成本。
探索智算新模式
尽管车企智算中心建设已基本初步成型,但跟其他此前建设的智算中心一样,与之相关的投入产出问题依然需要回答,或者说需求市场的波动性问题需要考虑在内。
中国电信研究院发布的《智算产业发展研究报告(2024)》显示,截至2024年6月,中国已建和正在建设的智算中心超250个。国家级数据中心,各地方政府、运营商、互联网企业都已参与到智算中心的建设中。
IDC最新报告《中国汽车云市场(2024上半年)跟踪》指出,从2023年一季度开始,企业为了缩减云的长期支出,开始加大力度建设私有云,但经过一年的尝试后,多数客户发现在一些新型场景,如车联网、自动驾驶训练,公有云相对于私有云有更好的弹性、更高的使用效率及更优的使用体验,云资源的采购重心逐步回归到公有云。
对此,一位智算行业从业者为钛媒体分享了一则海外用户案例:Uber最早也是自建数据中心,但在发展多年后放弃这一模式,开始与谷歌云、甲骨文等厂商建立公有云合作,从而平衡自建数据中心和公有云的使用情况。在他看来,企业对智算中心的建设或者对公有云的需求是动态变化的。在不同阶段,根据自身的人才储备、资金实力乃至当地政策支持情况,有不同的诉求考量。
近期,在异构智算生态产业联盟主办的活动中,中国智能计算产业联盟秘书长、异构智算产业生态联盟秘书长安静指出一点:“现在面临的情况是,有很多智算中心、超算中心在建设,但算力应用上却仍是一小部分,大部分算力仍处于闲置状态。如何实现当地算力消纳,需要从政策层面入手,调动现有算力应用;同时,很多地方规划智算中心建设也需要有核心目标,去解决产业应用问题。”
算力已然成为车企发展的新质生产力。对内,主要支持车企生产研发提速,包括自动驾驶研发、仿真设计,以及在边缘算力节点,针对制造工厂的支持;对外,主要面向消费者端的运营销售如智能座舱等提供便利。
以本文开头的吉利汽车为例。星睿智算中心的建设初衷,不是传统IDC的建设思路,而是主要围绕业务展开,怎样建设能够将需求自上而下得以满足,业务价值才能真正让平台价值体现。
其逻辑是,从底层算力到数据层,再到模型层的全面贯通,在此基础之上再构建智能座舱、智能驾驶数据、售后服务、企业智能体等产品服务。最近的情况是,吉利研究院推出了语音合成模型、拒识模型、自然语言大模型、音乐理解模型、AI DRIVE合成数据模型、多模态模型。归根究底,是去实践更大体量的算力应用场景。
而下一步,吉利汽车研究院人工智能中心主任陈勇回答媒体采访中指出,大模型训练和推理成本仍会持续下降,现在也并非最优解。在数据层面,构建高质量数据集,确保数据质量和完备性;在算法层面,将算法与应用场景结合,推动垂类应用场景;在算力层面,通过软硬件融合,提升算力利用率和模型推理速度。
汽车已经不再是传统的机械设备,而是可以实时交互的大型移动终端。每天,车辆产生大量的个性化数据,采集的传感器数据、司机的驾驶轨迹、司机的驾驶习惯等,这些数据正通过云化和数字化技术进行能效提升和标准化处理,一点点汇集起来,构筑成为众多车企迈向智能网联时代的目标。(本文首发于钛媒体APP,作者 | 杨丽,编辑 | 盖虹达)