划重点:
半导体研究与人工智能领域的知名分析师迪伦·帕特尔(Dylan Patel)
12月25日消息,在美国当地时间周二上线的Open Source双周对话播客中,半导体研究与人工智能领域的知名分析师迪伦·帕特尔(Dylan Patel)接受了专访。访谈中,帕特尔谈到了英伟达在行业中的主导地位及竞争优势、在扩大AI预训练规模时所面临的挑战、数据中心基础设施的发展与资本支出策略、合成数据的生成技术、推理时间计算的成本效益分析、英伟达当前所面临的挑战,并对未来一至两年内的行业前景进行了展望。
(编者注:帕特尔是半导体研究与咨询公司SemiAnalysis的创始人兼首席分析师,在半导体领域内具备渊博的专业知识与广泛的行业影响力,他因对芯片产业透彻的洞察力和精准的预判能力而著称。SemiAnalysis专注于半导体供应链的研究,业务覆盖化学原料、芯片制造、晶圆厂运营、设计知识产权管理以及战略规划等各个环节。SemiAnalysis的子栈平台汇聚了大约5万名用户,是全球第二大技术子栈。)
本文整理了迪伦·帕特尔主要观点如下:
英伟达在全球人工智能工作负载领域占据着压倒性优势,若不计入谷歌,全球98%的人工智能工作负载在英伟达芯片上运行。但在纳入谷歌后,该比例下降至约70%,这主要是因为谷歌在人工智能,尤其是生产工作负载领域,占据了极大的市场份额。
英伟达之所以能在人工智能领域占据主导地位,帕特尔认为可以将其比作三头龙。首先,相较于世界上其他半导体公司,英伟达的软件实力(CUDA生态)非常强大。其次,英伟达的硬件性能也远超多数同行。英伟达之所以能够快速引入新技术,是因为他们始终致力于实现特定的生产目标,从芯片的设计构想到最终部署,速度都远超竞争对手。最后,英伟达在网络领域也展现出了强劲的实力,他们通过收购Mellanox,进一步强化了自身的网络能力。这三方面优势的结合,使得英伟达就像三头龙,让其他半导体公司难以望其项背。
值得一提的是,英伟达的竞争壁垒往往被低估。他们独创了NVLink架构,能够高效地将多个芯片连接在一起。如今,英伟达的Blackwell系统备受瞩目,它不仅是一个GPU机架,更是一个集成了成千上万电缆和复杂组件的庞大系统,重量高达三吨。
然而,英伟达也面临着挑战。人工智能工作负载庞大且成本高昂,对于大型客户而言,支出可能达到数十亿美元。这意味着客户有可能投入资源研究如何在其他硬件上运行自己的模型。虽然在其他硬件上进行训练可能仍然具有挑战性,但在推理方面,客户可能更容易找到替代方案。
帕特尔解释称,预训练的缩放定律原理相对直观:增加计算资源并合理投入模型中,通常就能提升其性能。这一过程可细分为数据和参数两个维度,且存在一个最优比例以实现最佳缩放效果。
但在数据稀缺或难以获取的情况下,单纯增加模型参数并不能带来显著收益。从对数图来看,每次性能提升均需十倍投入。因此,在数据不足的情况下,增加资源投入可能无法获得预期收益。然而,数据生成技术仍处于初级阶段,未来发展潜力巨大。
帕特尔预计,我们或将在未来六个月至一年内见证模型性能的显著提升,这得益于合成数据生成技术的快速发展。尽管当前在计算资源投入上已相当可观,但我们尚未将数十亿美元用于合成数据生成、功能验证和推理训练等领域,目前仅投入数百万至数千万美元。
随着规模的扩大,新的资金投入方向将涌现。同时,测试时的计算需求也将增加,即在推理过程中投入更多时间以获得更优结果。许多实验室研究人员认为,由于这一新方向的解锁,未来一年或六个月的收益将更为显著。
这依然是规模化发展的体现,因为这一过程需要巨大的计算量。生成的数据量远超网络上现有的数据,尽管大部分数据会被舍弃,但生成的数据量之大足以支撑模型的持续运行。
当我们审视全球数据中心的发展动态时,不难发现微软、谷歌、Meta和亚马逊等巨头在数据中心上的投入堪称惊人。从电力供应情况、监管文件到卫星图像等诸多迹象,都可以清晰地看到这些公司在数据中心建设方面正加速步伐。
对于“规模扩张已死”的论断,这些公司的实际行动无疑给出了最有力的反驳。例如,Meta正在路易斯安那州建设大型数据中心、亚马逊、谷歌和微软也在多个地点建设吉瓦级的数据中心,并且它们为连接这些数据中心不惜斥资数十亿美元购买光纤网络,这些都证明它们对规模扩张的信念。
超大规模公司在数据中心领域的持续巨额投资,不仅彰显了“规模扩张”策略依然生机勃勃,而且这一策略正朝着更高效、更高性能的规模化方向演进。数据中心的发展不再单纯追求数量上的增长,而是更加注重资源的有效利用和整体性能的提升。
值得注意的是,数据中心的建设并非毫无限制。与GPU芯片供应相比,电力供应和空间资源成为了更为紧迫的制约因素。
在访谈中,帕特尔还解释了推理时间计算带来的好处。
在推理时间计算的过程中,我们无需再额外投入时间于模型训练,这有效降低了训练成本,尽管推理成本可能会有所增加,但这样的权衡是值得的。
以GPT-4为例,其训练成本高达数亿美元,然而,它目前所创造的收入已远超这一数字。对于OpenAI而言,GPT-4的投资回报率极为可观。若能避免巨额的前期训练投入,并能在模型产生收入时即刻部署,这无疑是一个极具吸引力的选项。
试想,若能提升湾区年薪30万美元的开发者效率20%,那么所带来的效益将是巨大的。若能将100人的开发团队精简至75人或50人,同时保持相同的工作量,甚至实现代码交付量的翻倍,那么采用成本更高的模型也是物有所值的。相比之下,即便是价格昂贵的o1模型,在与4o模型相比时,也显得相对划算。
因此,拥有最好的模型固然重要,但更重要的是要有愿意为这些优质模型支付高额费用的企业或消费者。毕竟,只有当有人愿意为这些模型买单时,我们才能确保它们的高额利润。而这些买单者,要么是企业,要么是消费者。因此,帕特尔认为,在不久的将来,能够参与最佳模型竞争的市场参与者将逐渐缩减至少数几个巨头。
英伟达依然在人工智能芯片领域占据主导地位,但正面临着来自定制专用集成电路(ASIC)芯片开发商、AMD以及其他公司的挑战。
其中,AMD在硅工程领域表现出色,成功击败了英特尔,但软件方面存在短板。帕特尔指出,AMD在软件开发上投入不足,缺乏GPU集群来支持软件开发,这与英伟达形成鲜明对比。英伟达利用内部超级计算机集群开发并快速更新软件,包括网络、计算和推理软件。而AMD则忽视了软件和系统级设计的重要性,过于依赖硬件竞争。
至于谷歌TPU,其在工作负载方面的排名领先。谷歌在芯片互连、与博通的合作、水冷技术及可靠性方面进行了工程优化,这些方面英伟达直到较近的时间才开始重视。不过,TPU仅在谷歌内部应用广泛,帕特尔认为谷歌应将更多软件开源。此外,TPU的定价也让用户望而却步。
亚马逊的芯片Tranium在硅材料、内存和网络方面与TPU相当,但效率较低,部分原因是其与Marvell和Alchip合作而非博通,导致电缆成本较高。
在访谈最后,帕特尔对2025年和2026年半导体领域的发展趋势进行了预测。
他认为,超大规模企业明年将继续增加投资,网络设备厂商、ASIC供应商和系统供应商生态系统将受益,英伟达将带动供应链增长。新兴云计算服务市场正在整合,80家相关企业中,可能只有五到十家能生存下来。
2026年英伟达销量是否会下降,取决于模型是否持续改进和超大规模企业是否愿意继续投资。如果模型改进且企业愿意投资,即使单位销量不增,由于芯片性能增强和成本上升,英伟达的收入仍可能大幅增长。
此外,中东、新加坡等地的主权财富基金和养老基金等资金来源可能会涌入半导体行业,推动公司继续增长和支出。竞争动态也可能导致这些公司更积极地支出,以避免被超越。
帕特尔相信,像OpenAI、xAI和Anthropic这样的公司将继续筹集越来越多的资金,以保持增长势头。
本文来自“腾讯科技”,作者:金鹿,36氪经授权发布。