进入2023年,ChatGPT引发了一个新的AI时代——大模型时代。陆奇说:“我已经跟不上大模型时代的狂飙速度了!”大模型引发了AI产业整体升级换代,各种大模型层出不穷,科技公司纷纷入局,AI创业公司再次雨后春笋般涌出。因为大模型,经济的下一个拐点也会加速出现——产业、科学、开发的发展速度同时加速进入拐点,引发了经济的结构化变革。
2022年,中国数字经济规模超过50万亿元,占GDP比重超过40%,而2032年这一数字将超过100万亿元!要知道,2022年的中国GDP也就121万亿元!大模型将不仅大力推动数字经济加速进入全面扩张期,高盛集团的经济学家们预测,ChatGPT等生成式AI可能在10年的时间里使得全球年GDP增长7%(近7万亿美元)、全球生产力提升1.5%。
今天,我们正处于智能经济的“奇点”时刻。从中小企业到大规模企业再到一个国家,都处于一个前所未有的机遇期。中国企业要如何快速构建新型基础设施,从而抓住经济的结构化变革机遇?HPE给出了一份智能经济“奇点”攻略——全生命周期的GPT解决方案,这能为中国企业腾飞GPT时代,铺就大模型“加速起飞跑道”。
为什么说大模型引发了AI产业的升级换代呢?之前的AI产业,相当于PC的DOS时代,不仅要自行搭建计算机,还要自行开发各种软件,整个软件行业的生产力非常低;而大模型之后的AI产业,相当于PC的Windows时代,微软的操作系统和英特尔的硬件体系,极大推动了软件和硬件的工业化,出现Oracle、SAP、Adobe等大批应用软件公司。
那么,大模型就是AI的“Windows操作系统”。之前的AI开发,都是各企业自行组建AI和数据团队,自行开发AI模型。由于缺乏AI人才,特别是缺乏既懂行业又懂AI的技术人才,导致很多AI项目的失败。尽管各大科技厂商推出了自动化的机器学习开发平台,但却仍然需要企业自行搭建复杂的AI基础设施,这让AI的规模化发展成为挑战。
HPE与NVIDIA联合发布的《人工智能产业——从实验升级到大规模实施》白皮书指出:每个AI 项目都作为复杂的系统运行,因此很难对其进行预测或控制。任何希望将少数AI项目的经验进一步规模化扩展的尝试,只会进一步加剧这一困难局面。20世纪90年代的软件开发也处于类似的境况,当时的软件产品能否取得成功,在很大程度上取决于是否能够了解,并掌控复杂且通常不可预测的底层硬件和软件系统环境。
今天的大模型,将整个AI产业进行了工业化分工:上游的大模型提供通用能力,下游AI开发者基于大模型生成各种AI应用。这种分工非常类似于Windows操作系统和Windows应用软件体系,因此也将像软件工业化那样出现AI工业化,那么接下来就需要大模型时代的工业标准化硬件基础设施,从而夯实AI工业化,加速智能经济的奇点进化。
2023年4月,HPE推出GPT解决方案,为大模型时代的AI开发和部署提供全套的AI工业标准化基础设施。要让模型架构如GPT般智能适配不同算法和数据集,就需要底层硬件具备从由低配入门级配置,平滑过渡到顶配需求的整体解决方案,进而满足不同行业不同体量企业的需求,而方案的核心就是算力和数据读写能力。
基于大模型的AI工业主要分为四大群体:处于上游的大模型生产方、处于中游的大模型运营方、处于下游的基于大模型API开发GCI和AIGC应用的开发方,以及企业用户。HPE推出了一系列计算服务和存储解决方案,满足各方的需求。
针对上游的大模型生产方和中游的大模型运营方,HPE拥有行业领先的高性能计算和AI超算,HPE Apollo 6500系统,是人工智能领域最高端的引擎,能够满足各类深度学习应用场景需求,充分降低了构建高性能人工智能系统的门槛。HPE Apollo 6500具有最高8颗GPU的计算架构,支持NVLink2.0,单个NVIDIA Tesla V100 GPU 可支持多达六条NVLink链路,总带宽为300Gb/秒,是PCIe 3.0带宽的10倍。HPE Apollo 6500采用NVLink2.0的高效混合立方网格是目前最高性能的解决方案,用户也可以使用基于PCIe的4:1或8:1的GPU:CPU连接,获得高性能与易用性的均衡。
而针对下游的GCI和AIGC开发方、创业公司、企业用户以及非大模型AI应用的开发方和用户,HPE ProLiant Gen11 系列服务器能提供便捷、可靠和性能优化的计算资源,适用于一系列现代工作负载,包括AI、分析、云原生应用、图形密集型应用、机器学习、虚拟桌面基础设施(VDI)和虚拟化等。HPE ProLiant服务器为用户提供了一个基于云原生技术的管理中枢,带来了便捷、统一和自动化的运维体验,用户可轻松地搭载数千台分布式设备,满足AI、机器学习和渲染项目等工作负载的要求。
在数据存储方面,HPE Alletra是一款支持端到端NVMe的闪存系统,除了介质层NVMe SSD之外,还支持前端的NVMe-oF以及数据处理层NVMe SCM,从而在整个数据链路上摆脱了传统存储阵列的瓶颈。HPE Alletra独有的多活互联架构与NVMe+SCM的结合,配合软硬件上全面优化,可以跨越式地降低读写IO的时延。特别是针对实时交易类要求极致IOPS和时延的应用,提供了更加优异的性能表现。
整体来看,HPE GPT系列解决方案可动态调整、适配业务,即能满足高端百亿或千亿参数大模型训练的需求,支持上万颗CPU/GPU集群的构建,也可满足中端和边缘侧GCI、AIGC和其它AI应用的开发、运行和部署的需求,具有简单易用、部署方面的特点,同时满足企业级高达“6个9”的数据可用性和All-NVMe高性能低延迟AI计算以及数据安全的要求,而本地化的合作伙伴更可确保支持服务高效可靠。
成功的AI/ML模型是行业最佳计算、存储、网络、软件工具以及交付模式的高效组合,为了向企业客户高效交付工业标准化AI解决方案,HPE与NVIDIA之间展开紧密合作,为企业提供高度集成且模块化的整体解决方案。
作为全球工业标准服务器的领军企业,最新的HPE ProLiant服务器重新设计了一个前端GPU安装框架,可以安装最多4块GPU,将传统2U服务器可安装的GPU数量翻倍,不仅可以满足快速增长的图形密集型工作负载处理需求,由于采用NVLink而带来的高效GPU到GPU通信还增加了吞吐能力和共享GPU缓存,可显著改善AI应用性能。
NVIDIA最新推出的下一代GPU也与HPE AI解决方案完美结合。NVIDIA L4 Tensor Core GPU采用NVIDIA Ada Lovelace架构,是一个通用的高效能加速器,满足游戏、仿真、数据科技等对于视频、视觉、图形、图像和虚拟化等工作负载的需求。NVIDIA L4 Tensor Core GPU确保每一台从边缘到数据中心的HPE服务器,都能为高吞吐、低延时的工作负载,提供高效和高性能的解决方案。
HPE充分理解AI工业化的要求,投资了AI/ML前沿的模型数据管理、训练和推理能力,同时确保AI/ML应用满足相应法规和道德要求。HPE机器学习开发环境是一个能够帮助开发者和企业快速开发、迭代和规模化扩展高质量AI模型的软件平台,从单台笔记本电脑到上千颗GPU集群系统,可跨多个系统无缝扩展AI模型而无需重写底层基础设施代码。
例如,HPE面向边缘和分布式计算环境推出的Swarm Learning解决方案,是一个满足区域数据隐私要求的分布式机器学习解决方案,用户数据无需离开所属地就能完成AI模型的训练。HPE Swarm Learning为AI模型提供了HPE swarm API,可用容器对外分享AI模型而无需共享实际的训练数据,这样就可以分享基于边缘端数据训练出来的AI模型而无需共享边缘端数据。科研、医院、银行、金融服务、制造工厂等,都可受益于Swarm Learning。
为了在HPE系统上更好地运行NVIDIA AI Enterprise Suite,面向GPU集群加速AI数据准备、规模化训练AI模型、优化推理性能和大规模部署AI应用。HPE还与NVIDIA的紧密合作,为HPE法国Grenoble最佳实践中心提供了一个包括20个HPE Apollo Gen10 Plus系统和160颗NVIDIA A100 Tensor Core GPU的超级计算机,为加速医疗健康、交通物流和环境保护等AI计算提供最佳实践。
在HPE和NVIDIA的身后是AI基础设施联盟(AIIA),该联盟的主要目的是建立AI/ML开发的工业标准和技术堆栈,超过4万名数据科学家、工程师和CXO们都加入到该联盟,为全球各类型企业提供AI基础设施工业标准。目前,AIIA联盟社区成员来自顶级咨询公司和风险投资,主要的互联网、科技、软件、硬件、金融服务、生物科技、医药、零售、汽车、娱乐公司、航空等公司。
总结而言:大模型为我们的时代创造了一个“奇点”,这就是AI全面升级所带来的全球生产力普遍提升和数字经济加速全面扩展,而AI自身也进入了工业标准化阶段——从Dos进入到Windows时代,已经能够形成一个经典的AI基础设施架构蓝图,HPE也相应推出了“奇点”攻略——全生命周期的解决方案。相信在AI工业标准基础设施的推动下,我们将加速进入大模型时代——中国也将成为大模型的大国,强国之一!(文/宁川)