集微网报道 顶着大模型先驱的光环,OpenAI的野心正在不断膨胀,不只要在大模型领域征战四方,还将押注自研AI芯片并欲染指晶圆代工?
据可靠消息,OpenAI首席执行官山姆·奥尔特曼 (Sam Altman) 正在通过向阿布扎比的 G42 和日本的软银等全球投资者寻求必要的巨额资金,来建立一个专门的晶圆厂。
目前谈判仍处于早期阶段,参与该项目的合作伙伴和投资者的完整名单尚未确定。不过,一些知情人士透露称,奥尔特曼试图拉拢“顶级芯片制造商”合作,其中可能包括台积电、三星和英特尔,建成的制造工厂网络将覆盖全球。
看起来OpenAI端得要下一盘“代工”大棋,只是不知到底会如何收官?能否成就AI芯片时代的“三星”?
既要自研AI芯片又要IDM
OpenAI选择自研AI芯片,或是多重考量之下的必然之举。
在生成式AI的驱动下,全球产业正在经历一场空前的变革,也使得AI芯片市场需求强势上扬。Gartner称,用于执行AI工作负载的芯片市场正以每年20%以上的速度增长,2024年AI芯片市场将增长25.6%,达到671亿美元。到2027年,AI芯片营收预计将是2023年市场规模的两倍以上,达到1194亿美元。
然而,如今的大模型训练需求无论是老将还是新贵,基本都仰英伟达“鼻息”,在这一领域基本处于垄断地位的英伟达,高高在上手持定价权。特别是英伟达高端GPU由于代工、CoWoS封装以及HBM等产能问题所限,不仅费用高昂,且缺口巨大。而OpenAI正在全力推进GPT5,但好像已经无“芯”可练了。去年一整年,奥尔特曼都在抱怨OpenAI已经陷入了严重的GPU短缺。据悉训练GPT-4用了大约25000块A100 GPU 。而训练GPT-5,还需要5万张H100。
尤其是ChatGPT 的运营成本巨大。据分析,ChatGPT每次查询的成本约为0.04美元,如果ChatGPT查询量成长至谷歌搜索规模的十分之一,最初需要部署价值约481亿美元的AI芯片投入运算,每年还需要价值约160亿美元的芯片才能维持运作。
多重因素交织之下,OpenAI已踏入自研AI芯片“河流”,并已招募了多位精兵强推进。这或是大势所趋,毕竟谷歌、亚马逊、微软等云厂商均押注自研AI芯片,以构建符合智能化、灵活化和可扩展化需求的定制处理器,实现效率与成本的最优化,并减少“将鸡蛋放在一个篮子里”的风险,把握更多的自主权。
CFA博士Richard Windsor在接受集微网采访时表示,OpenAI自研芯片的目标意在打破英伟达目前在AI生态系统中的垄断地位。而且,OpenAI还采取了垂直化战略,推出了GPT SDK和应用商店GPTStore,这将允许开发者在GPT商店中分享和销售基于GPT开发的应用。如果这一策略能成功地确保GPT成为生成式AI服务的基础模型,那么开发人员就不Care这一服务是通过什么硅平台进行训练的。倘若OpenAI可开发出专门针对GPT优化的系列芯片,效果至少与英伟达GPU比肩,那么自研芯片就会加速。
但Richard Windsor也表达了他的担忧,英伟达的优势不止在于GPU性能,还在于其耕耘数年成就的CUDA生态,尽管众多云厂商在开发自有芯片,但仍不得不极力争取英伟达的订单。这是OpenAI想要打破的束缚,但OpenAI也想借此束缚开发者,从开发者的角度来看不过是换汤不换药。而且OpenAI暗藏的“雷”还在于其治理结构中仍然存在巨大的风险,这将大大降低开发人员希望基于GPT提供服务的信心,这将为竞争对手如谷歌、Meta等提供机会。
不过,出于成本考量,上述巨头自研AI芯片无一例外地会将制造外包。
但OpenAI或将打破这一“惯例”,它的野心不止于自研AI芯片重建生态,还将向下游延伸至制造侧,欲开创先河构建AI芯片IDM模式,以在未来几年打造一个自给自足的半导体供应链帝国。
自建晶圆厂迎来嘘声
大多数分析将此归因于,奥尔特曼或确信目前先进工艺代工厂未来几年内肯定无法满足对AI芯片的需求。只有立刻行动,才能确保十年内能有充足的芯片供应。为此,才着力吸引投资来全力押注。
尽管该报告没有详细说明奥尔特曼是否计划购买一家成熟的代工厂或与代工厂合作建立一个全新的晶圆厂,但无论哪一种均需要大量的资金和时间。报道称,Altman仅与G42的讨论就集中在筹集80亿至100亿美元之间。该项目的全部范围和合作伙伴名单仍处于早期阶段,这表明建立此类设施需要大量投资和时间。
要知道的是,AI芯片都需要先进工艺加持,而投资先进工艺晶圆厂意味着巨额的投资,目前单单建设一个3nm或2nm节点先进工艺的晶圆厂,投资可达300亿美元,而且成本也在迅速上升。单个Low-NA EUV光刻机的支出就约为2亿美元,而High-NA EUV光刻机的成本预计为3亿至4亿美元。此外还需要至少两三年的周期引进设备、招募人才、建设工艺库等等,这不仅仅是“勇敢者的游戏”。
对于目前的OpenAI来说,迅速建立起尖端半导体制造工厂是一件极具挑战的事。有分析师对集微网表示,目前英伟达这么大体量的公司,都没有考虑涉足晶圆代工,这需要积累和迭代,台积电打拼这么多年,赚的大都是辛苦费。而且现在连与一家与英伟达对标的GPU都没有出现,建设晶圆厂没有太多意义。
一位业内人士程然(化名)也指出,AI芯片的真正产能需求能有多大?无法Cover一个晶圆厂的运营成本,连一个Mini Line都只能凑合养活。他毫不客气直言道,建好Fab厂难道去吃灰吗?
但集微咨询从另一个角度分析道,OpenAI自建晶圆厂就是要朝着IDM的方向发展,保证自己的供应链,控制生产环节的成本。本身IDM是相对更加完善的运营模式,只是门槛高,前期成本投入巨大,包括需要有很好的市场前景才能保证后期盈利。OpenAI建厂也不是没有可行性,不过要看他们拉投资的情况,还是需要资金满足的情况下才能有机会。
而且,“OpenAI建厂是为了自产自用,他们知道自己需要什么节点的产品,不像建立对外的代工厂,有可能规划赶不上市场变化导致产能浪费。他们在技术允许的情况下肯定是规划建立自身可用的产线,这点和普通的代工厂有区别。”集微咨询指出。
更多难题接踵而至
以为OpenAI克服千难万险构建晶圆厂就接近成功了?这真的是太天真了,其实后续的挑战才姗姗而来。
从英伟达H100的短缺情况来看,瓶颈还在于CoWoS封装产能不足。
台积电在前不久财报电话会议上称,将持续扩充先进封装包括CoWoS产能。设备厂商估算,台积电2023年CoWoS总产能逾12万片,2024年将冲上24万片,也就是说想要提升一倍的产量,几乎需要一年左右的时间,这或是由于生产工艺异常复杂所致。而且在其中,英伟达将取得14.4万~15万片。
此外,H100所使用的HBM3系列内存也是一大生产难点,而这一命脉也掌握在美光、SK海力士或三星手中。前不久英伟达除集中采购台积电产能外,更斥巨额资金购买了HBM3内存,据悉已向美光和 SK海力士预先订购高达韩元1兆至10兆的HBM3内存,业界普遍推测其旨在确保2024年前期HBM供应稳定。
毕竟GPU量产涉及复杂的工艺流程,需要各种关键组件,涉及内存、互连、缓存以及先进封装等等,其中任何一种组件或工艺的短缺,都有可能导致GPU“难产”。
不过这对于目前的OpenAI来说,可能还无暇顾及于此,毕竟,自建晶圆厂真的是“伤筋动骨”的事,奥尔特曼会及时止损吗?
Richard Windsor就给出了另一种解读,OpenAI仍集中于Fabless模式,它设计的AI芯片将送至台积电制造。
上述分析师也告诉集微网记者,不一定是OpenAI,很可能只是其CEO奥尔特曼的想法,利用这一风口浪尖,吸引更多的投资做大的项目。如果说自研AI芯片尚在情理之中,但自建晶圆厂则有些“越界”了。
多重变数仍要细思量
但如果奥尔特曼一意孤行,且有微软撑腰的话,自建晶圆厂也有可能“孤注一掷”?据知情人士称,奥尔特曼已试探过微软对这个计划的态度,微软对此表示支持。
若真是如此,这一举动有可能改变整个代工市场的格局?
对于OpenAI建厂,就不得不提及英特尔。毕竟,英特尔是美国本土先进工艺代表,OpenAI另起炉灶,成为美国代工厂“唯二”选手,是否对英特尔发展造成影响?
集微咨询对此指出,先进制程的产能未来会比较紧张,英特尔本身也是IDM企业,本身要消耗掉很多产能,对外提供的代工并不多,OpenAI前期应该是与台积电洽谈代工的事务,对英特尔影响应该不大。
不过若OpenAI真的从0到1自建晶圆厂,代工格局的座次或将再起波澜。
但隐含的另一深层问题是,即便OpenAI大建快上晶圆厂,产能需求也一直满载吗?
德勤曾警告称,目前几乎所有的AI训练和推理都使用的是同一种生成式AI芯片完成的,但随着时间的推移,更先进的GPU、CPU或者其他新型处理器可能会出现,导致目前使用的AI芯片供给过剩。
IRichard Windsor也认为,2023年是训练之年,随着算法开始部署和人工智能生态系统的争夺升温,2024年将让位于推理。
对此程然也提到,在大模型落地一段时间之后,大量的推理业务将产生,未来推理市场需求更大,GPU在训练和推理市场将二八开,而其他架构的芯片有可能搅局推理市场,冲击GPU格局。
而且不要忘了还有一种声音称2023年、2024年AI芯片需求强劲的表现是一种泡沫,到2025年存在出现萧条的可能性。虽然这种声音并非主流观点,但值得警惕。上述分析师也提到,ChatGPT何时能大规模落地,能产生多大的芯片需求,以及未来维持一个先进晶圆厂需要多大的代价,OpenAI仍需仔细掂量。
奥尔特曼能否为其建造自有晶圆厂计划筹集数百或数千亿美元,并维护和确保其在最先进的节点上制造芯片,看来唯有时间才能证明。或许,过段时间奥尔特曼就会打消业界猜想收心做Fabless也不是不可能。