在Nvidia数据中心业务中找到比它增长更快的东西可能会很困难,但有一个竞争者:OpenAI。有消息称OpenAI正考虑自研AI芯片。这种猜测源于该公司的快速增长以及使用Nvidia基于GPU的系统所带来的巨大成本。OpenAI对更具成本效益的替代方案的追求以及对基础架构更大控制权的渴望引发了关于开发自有AI芯片的猜测。
OpenAI是GPT生成式人工智能模型和聊天机器人接口的创造者,今年它风靡全球。它还是一家在GenAI商业化方面拥有一定先发优势的公司,这部分要归功于其与微软130亿美元的巨额合作伙伴关系。考虑到OpenAI在客户和收入方面的增长速度非常快,以及为训练和运行其不断扩大的人工智能模型所需的高成本,毫不奇怪有传言称OpenAI正在考虑设计自己的人工智能芯片,并将其制造成自家系统,以减少对基于Nvidia的GPU系统的依赖 - 无论是租用来自微软Azure云的Nvidia A100和H100 GPU容量,还是构建或购买基于这些GPU的系统并将它们部署在合作或自家数据中心。鉴于云构建商对GPU容量的高溢价定价,像OpenAI这样的公司肯定在寻找更便宜的替代方案,而且在创业阶段,它们显然还不足以排在需要各种服务的Microsoft、Google、Amazon Web Services和日益壮大的Meta Platforms前面。GPU实例的利润令人惊讶,而且这还是在GPU系统组件的成本非常高之后。为了证明这一点,我们最近分析了基于Nvidia A100和H100 GPU的Amazon Web Services的P4和P5实例的数据,以及它们的前身,显示AWS对A100和H100的三年预留实例拥有接近70%的运营利润率。当然,云定价和GPU系统配置有所不同,但原则是相同的。如今,出售GPU容量比在沙漠中无法找到绿洲和挖井给人们卖水更容易,而且没有必要支付云溢价,甚至芯片制造商和系统制造商的溢价,但任何希望设计定制芯片和相关系统的人都必须具备一定规模,以承担如此庞大的工程师和铸造以及组装能力的投资。看起来 OpenAI 正在这条轨道上,除了与微软的交易之外,它还将自己 49% 的股份出售给了这家软件和云巨头,以换取使用 OpenAI 模型的独家许可,并拥有本质上是往返微软,支付 OpenAI 训练其模型所需的 Azure 云上的 GPU 容量费用。根据路透社的另一份报告,去年OpenAI的销售额为2800万美元,而《财富》杂志在其报告中写道,这家公司去年亏损了5.4亿美元,虽然它不是上市公司。现在你知道为什么OpenAI不得不亲近微软,这可能是将人工智能嵌入到许多系统软件和应用程序的最佳途径。今年早些时候,OpenAI告诉人们,今年可能会实现2亿美元的销售额,但在8月份,它表示在未来12个月内,将实现10亿美元的销售额,提供对其模型和聊天机器人服务的访问。如果这是真的,没有理由相信OpenAI不能赚得盆满钵满,特别是如果微软付费使用 Azure,这意味着净成本为零。假设OpenAI今年可能有5亿美元的资金,明年可能有3倍的资金,如果其增长放缓,成本不会大幅上升。如果情况确实如此,那么Sam Altman等人是赢家,因为我们认为OpenAI的创始人和所有者现在不希望其持股比例降至51%以下,因为这将失去对公司的控制。OpenAI可能有足够的资金来制造AI芯片,而不需要寻找更多的投资者。因此,再次强调OpenAI正在寻找降低成本的方式并不奇怪。考虑到Nvidia对GPU的高价溢价和云端为租用的GPU系统容量收费高昂,OpenAI如果没有考虑设计用于其AI模型的计算和互连芯片选项,那就太愚蠢了。以前不应该这样做,但现在显然是开始这条道路的时候。我们今年早些时候从The Information获得的消息是,微软有自己的AI芯片项目,代号"Athena",始于2019年,显然已经有一些测试芯片提供给了微软和OpenAI的研究人员。(重要的是要记住这是两家独立的公司。)尽管微软推动了各种芯片的发展,特别是在其Xbox游戏机中的自定义CPU-GPU复合芯片,但开发如此大型和复杂的芯片在每个制造过程节点都变得越来越昂贵,并且存在风险,因为任何延迟 - 总会有延迟 - 都可能使微软落后于竞争对手。Google首先推出了自家的Tensor Processing Units(TPUs),与Broadcom合作进行共同设计和制造。AWS随后推出了其Trainium和Inferentia芯片,由其Annapurna Labs部门负责制造,制造商是台积电,这也是Google TPU的晶圆厂。Marvell帮助Groq将其GroqChip和互连技术推向市场。Meta Platforms正在开发自家的MTIA芯片用于AI推断,并同时还在研发用于AI培训的变种。AI培训芯片领域还包括Cerebras Systems、SambaNova Systems、Graphcore和Tenstorrent等设备。这些AI初创公司的估值可能过高 - 数十亿美元 - OpenAI可能无法收购它们,但吉姆·凯勒(Jim Keller)的Tenstorrent公司是独一无二的,因为该公司愿意向任何想要构建自己的AI加速器或拥有其RISC-V CPU的人授予IP许可。考虑到GPT模型在AI领域的重要性,我们认为任何AI初创公司都会达成类似的IP许可协议,成为OpenAI的首选平台,几乎可以肯定OpenAI有能力在发现微软Azure价格过高时转向自家硬件。让我们进行一些有趣的数学计算。购买一个具有约20亿FLOP的全球一流人工智能训练集群(不包括支持矩阵稀疏性的支持)现在需要花费超过10亿美元,使用Nvidia H100 GPU。在云中租用三年的容量将这个成本增加2.5倍。这包括群集节点的网络、计算和本地存储,但不包括任何外部、高容量和高性能的文件系统存储。开发一个规模相当适度的新芯片成本在2000万至5000万美元之间。但假设它要更多。但要记住,构建一个人工智能系统涉及的不仅仅是设计矩阵引擎并将其交给台积电。云构建商购买一个基于Hopper H100的八GPU节点的成本可能接近30万美元,包括InfiniBand网络(网卡、电缆和交换机)的部分。这假定了节点之间采用NVSwitch互连。(这比单元购买更便宜。)你可以使用只有两个或四个GPU的较小节点,并使用这些GPU之间的直接NVLink端口,但共享内存域较小。这具有成本更低的优势,但共享内存的大小较小,这会影响模型训练性能和规模。同一个 8 GPU 节点的按需租金为 260 万美元,AWS 的三年内预留费用为 110 万美元,微软 Azure 和谷歌云的租金可能也相同。因此,如果 OpenAI 能够以低于 50万美元的价格构建其系统(全部成本全部投入),那么它将削减一半以上的 IT 费用,同时掌控自己的命运。将 IT 费用削减一半,模型规模增加了一倍。将其削减四分之三即可使其翻两番。这对于模型尺寸每两到三个月翻一番的市场来说非常重要。需要记住的是,如果AI芯片设计或制造出现问题,OpenAI也可能面临自己的困境,此时,OpenAI将被排在Nvidia提供的GPU访问队列的后面,而在微软那里,位置也会进一步下降。因此,需要考虑到这一点。这就是为什么所有云端和大多数超大规模云供应商都会购买Nvidia GPU,并设计和构建自己的加速器和系统。他们也不能承受被迎头赶上的风险。所以这也需要考虑。这就是为什么所有的云服务提供商和大多数超级规模云计算供应商都会购买Nvidia的GPU,同时设计和构建自己的加速器和系统。他们也不能承担被抓个措手不及的风险。本文由EETOP编译自nextplatform