当前位置:首页|资讯|生成式AI|人工智能|大语言模型

HPE欲将自家超算优势转化为生成式AI收益

作者:至顶头条发布时间:2023-06-26

原标题:HPE欲将自家超算优势转化为生成式AI收益

HPE近期宣布将推出面向大语言模型(LLM)的人工智能云,这也凸显出该公司制定的差异化战略,希望借此为自家高性能计算业务拓展出持续增长的市场空间。

尽管HPE在超级计算知识产权方面确实拥有一定储备和优势,但公有云厂商在AI领域仍然保持着实质性的领先。毕竟OpenAI的ChatGPT等生成式AI完全依赖于云基础设施及其海量算力资源。于是问题就非常明确:HPE能否提供独特的算力和卖点,在这场竞争中占据主动并开辟新的利润通道?

在本文中,我们将解读HPE在日前Discover大会上发布的LLM即服务公告,尝试从中为以下问题找出答案:HPE的战略是否能够代替公有云及私有云,成为AI模型部署的可行方案?抑或说,HPE最终只能成为市场上的小众玩家?就这个问题,我们邀请到CUBE分析师Rob Strechay和Constellation Research公司副总裁兼首席分析师Andy Thurai共同讨论。

HPE发布AI云公告

2014年,即惠普与HPE正式拆分之前,惠普曾宣布推出Helion公有云。但项目在短短两年后即被关闭,并将公有云市场拱手让予亚马逊云科技。当时HPE落败的原因很明确:缺乏能够与亚马逊竞争的规模化和差异化优势。

HPE无疑坚信这次的尝试会有所不同。在上周的Discover大会上,HPE将GreenLake即服务平台扩展至AI云市场,希望能通过HPE超级计算机支持的多租户服务为客户提供大语言模型。

HPE目前正与来自德国的初创公司Aleph Alpha GmbH合作,后者专门研究大语言模型,且重点关注可解释性问题。HPE认为,可解释性对于特定领域的AI应用战略至关重要。HPE的首款产品将接入Luminous,即Aleph Alpha预训练的LLM。企业客户可以导入自己的数据,通过专有信息来训练和微调出适合需求的自定义模型。

我们邀请到Strechay和Thurai解读这份公告,并谈谈自己的看法。以下为此次对话的内容摘要:

讨论的核心,是HPE计划以“即服务”模式开放Cray超级计算基础设施,降低市场上的高性能计算资源获取门槛。

以下几个关键点值得注意:

  • Strechay肯定了HPE利用其Cray技术提供超算资源即服务的创新思路,但指出这份公告距离实际上市还有约半年时间。他表示HPE目前仍是LLM市场上的追随者,只是这种以高性能计算作为切入点的思路确实新颖。
  • Thurai同意Strechay的评估,但态度上更为乐观,表示HPE提出的商业模式对于大规模工作负载可能具备吸引力。他发现用户无需任何微调,即可把最沉重的工作负载移交给HPE打理。
  • 但Thurai也表达了自己的担忧,他认为HPE的公告中缺乏关于机器学习运营(MLOps)等关键议题的具体细节,并强调在对HPE战略的可行性做出最终判断之前,需要先深入了解这些细节。
  • Strechay也指出,HPE的这款产品更多属于平台即服务,而非基础设施即服务。

总结:

分析师们对于HPE公布的战略持谨慎乐观态度,指出该战略有望彻底改变大型工作负载和高性能计算任务的处理方式。但二人也都认为,在得出任何实质性结论之前,HPE还须提供关于执行计划的更多细节,特别是围绕MLOps的细节。归根结底,决定战略成败的永远在于执行。

缩小工作量范围以实现聚焦

Strechay和Thurai还进一步讨论了HPE计划通过其新LLM即服务产品解决的相关工作负载,包括气候建模、生物/生命科学、医疗保健和潜在的财务建模。分析师们同时分享了HPE与Aleph Alpha这家不太知名的初创公司间的合作关系。

以下几个关键点值得注意:

  • Strechay确定了HPE计划冲击的三大主要领域——气候、生物/生命科学与医疗保健。他们认为这些领域确实是Cray超级计算基础设施的专长方向,而HPE为此类客户提供基础设施即服务确实能够简化实施流程。
  • Strechay强调了该产品的PaaS性质,表示用户可以选用HPE的模型,也可以导入自己的模型(例如来自Anthropic的模型)。这样的PaaS性质,意味着用户可以跳过自建基础设施的艰难过程。
  • Thurai讨论了HPE与Aleph Alpha间的合作伙伴关系,并指出HPE的最终目标是展示其训练LLM的能力。目前,市场对于LLM训练的需求已经与传统高性能计算任务基本持平。
  • Thurai指出,他对HPE的演示内容表示赞赏,但仍强调其中缺乏对各类AI、机器学习和深度学习工作负载的处理细节。他还提到,尽管HPE对开源抱有浓厚兴趣,但尚不清楚生态系统能否提供建立强大AI/机器学习服务所需要的全面组件。

总结:

HPE的新战略有望让超级计算即服务在气候、医疗保健和生物/生命科学等重要领域成为现实。尽管合作伙伴并非主流厂商,但与Aleph Alpha的协同已经标志着HPE在处理大规模AI工作负载方面迈出了坚实的一步。不过虽然方向上没什么问题,但HPE的宣传材料缺少对各类AI、机器学习和深度学习工作负载以及整体生态系统的细节处理方法,所以前景仍然不够明朗。

我认为在欧洲,环境可持续性政策将对HPE有很大帮助。相比之下,HPE在北美市场的优势可能相对不明显。 – Rob Strechay

当高性能计算遇上AI

HPE的基本思路非常简单:高性能计算与AI领域的碰撞,将为其带来独一无二的竞争优势。事实上,HPE在高性能计算领域确实处于领先地位,具体参见下图。

HPE凭借其Frontier和Lumi系统超算,在全球超级计算机榜单上分列第一和第三位。二者均使用HPE的Slingshot互连,这也是系统中的一大关键差异化因素。

HPE还认为生成式AI这类工作负载的独特性,能够与自己掌握的超级计算专业知识良好契合。HPE人工智能首席技术官Eng Lim Goh博士对传统云工作负载和新一代AI工作负载间的区别,作出了这样的描述:

传统云服务模型是在大量计算机服务器上运行大量工作负载。但对于大语言醋,是在大量计算机服务器上运行单一工作负载。因此二者之间的可扩展性表现有很大差别。因此我们才需要引入超级计算专业知识,几十年来我们一直利用这些知识在众多计算机服务器上运行单一巨型工作负载。

以下是分析师们的讨论摘要:

Strechay和THurai深入研究了HPE在大语言模型市场中的积累和潜力,同时分析了未来可能面临的挑战。Strechay借鉴了该公司在处理大型应用方面的丰富经验,表示这些积累确实能为HPE带来一定优势。然而,Thurai似乎对HPE基于过往经验适应市场需求的能力持怀疑态度。

讨论中有以下几点值得注意:

  • Strechay承认HPE在跨大量服务器运行大型应用程序方面拥有深厚的历史沉淀和经验积累,过去参与开放网格论坛和全球网格论坛的经历似乎也有帮助。他将HPE与NASA及能源部等重要实体的长期合作关系及经验,也视为重要的潜在竞争优势。
  • Thurai则对HPE服务在主流市场上的吸引力表示了质疑,称其可能在小众市场上表现更佳。他认为HPE远不是市场上唯一的高性能计算服务商,表示亚马逊的HPC服务也同样强大、甚至更具知名度。
  • 对公有云服务商相比,Thurai对HPE所能访问到的数据量表达了担忧,称受到数据访问能力的限制,大部分创新和AI工作负载终将流向超大规模企业。他承认HPE拥有强大的超级计算机和存储容量,但质疑当前面向更广泛的通用类工作负载进军的决定可能不是最理想的发展思路。

总结:

HPE在管理广泛的通用应用程序和长期合作关系方面拥有丰富的经验和渊源,这可能为其进军大语言模型市场带来一定优势。然而,创新工作负载对于数据访问能力和市场竞争力也提出了严苛要求,HPE未必跨越得了这道障碍。尽管该公司拥有强大的超级计算机和存储资源,但目前无法确定其能否将这些资产真正转化成优于竞争对手的亮眼产品。

永远向“钱”看:HPE各业务部门剖析

下面,我们来看看HPE目前的各条业务线,及其AI和高性能计算业务线的各自表现。请注意,HPE于2019年收购了Cray,之前几年还收购了Silicon Graphics,这些都是其在高性能计算领域占据领先的重要操作。

先看HPE最近一个季度的表现:高性能计算和AI业务价值数十亿美元,而且规模仍在不断增长,但本质上看仍仅仅维持着收支平衡。也就是说,虽然风光大盛、引人注目,但这部分业务还没有真正带来收益。智能边缘(Aruba)是目前另一颗耀眼的新星,年化收入超过50亿美元,经营利润高达27%。所以从吸金能力的角度看,这才是HPE最好的业务,产生的利润几乎与服务器业务持平。

HPE首席执行官Antonio Neri这样描述公司的优势:

只要认真观察公有云架构,就会发现它是一种大规模的传统网络架构,有干有叶,各种通用型工作负载在同样的架构之上运行并与数据对接。相比之下,LLM架构更适合AI原生架构,其网络结构将完全不同。这就是Slingshot的意义所在,该网络的运作方式同传统网络大相径庭。很明显,我们需要接入各个GPU或CPU的网卡,还要附带一大堆加速器。争用软件管理则须具备芯片可编程能力。Slingshot能够解决所有需求,是我们多年以来长期开发的心血和结晶。目前的公有云厂商大多还没有开发出自己的网络,而仍在使用Arista、思科或瞻博等公司的产品。我们则拥有专有网络。顺带一提,英伟达也有自己的专有网络。但我们的生态系统中其实包含多生态元素,能够为其提供全面支持。因此与其在公有云领域投入大量时间和精力去追赶,不如直接一步到位。另外还要注意,AI基础设施代表着一种完全不同的计算栈,比如说直浸式液冷设计等,总之代表着前所未有的设计思路。

下面是两位分析师的讨论总结:

  • Thurai认为HPE虽然在AI领域的参与度不低,但承担的大部分工作仍然是传统的高性能计算类工作负载。HPE在AI工作负载(包括LLM)的关注仍主要保留在演示层面,拿不出此类系统的实际工作案例。Thurai怀疑HPE究竟能不能说服用户在其服务器上运行LLM工作负载,毕竟生态系统和MLOps的缺失很难让受众下定决心。
  • Thurai还补充道,为了训练模型,HPE必须在业界建立广泛的合作伙伴关系,例如与Hugging Face等公司合作等。但HPE并没有提到这方面问题。与AWS相比,HPE的策略似乎侧重于将传统HPC工作负载强行“更名”为AI工作负载,但理性人士恐怕不会支持这种过于粗暴的定义方式。

总结:

关键问题在于,HPE专注于传统HPC工作负载的策略能否盈利。尽管HPE的网络和互连成果为其带来了潜在优势,但这些优势可能并不长久,毕竟商业组件的获取门槛不是特别高。数据中心液冷方面的专业知识倒是不错,但真正的问题还是取决于同竞争对手相比,HPE到底有没有将客户数据吸引至自家平台的能力。

IT决策者如何看待生成式AI与LLM

接下来要探讨的问题是:HPE的服务到底能不能成为主流,还是说注定只是一场小众狂欢?

之前我们已经展示了部分企业技术研究数据,询问组织如何看待生成式AI与LLM,特别是已经在评估或者生产落地了哪些相关用例。请注意,34%的组织表示还没有进入评估阶段,我们认为这个比例确实高得超出预期。至于已经开始探索的受访者,主要用例就是大家能想到的那些:聊天机器人、代码生成、编写营销方案、总结文本等。

HPE对此倒是有不同观点。他们专注于非常具体的市场区间,面向那些拥有自己专有数据、希望利用这些数据训练模型,但又不想自行购买和管理超级计算基础设施成本的受众。HPE坚信,凭借自己手中独特的知识产权积累,他们能够提供比公有云服务商更加可靠、更具成本效益且可比肩云优势的新方案。

这就带来了新的问题:HPE到底有没有注意到,其提到的这些主流用例并不足以转化为HPE的资金收益?HPE的发展战略到底是否有利可图?

虽然我们主要对HPE的LLM策略采取观望和“搁置”的态度,但仍有以下几点值得关注:

  • 我们相信,HPE可以通过向那些没有手段或资源在该领域进行大量投资的企业提供超级计算容量,从而找到有利可图的小众市场。HPE不一定需要与亚马逊等主要参与者直接竞争。
  • Thurai一直强调将AI领域的创新工作负载和成熟工作负载区分开来。在创新工作负载一侧,优先事项主要是实验和速度。而随着AI模型发展成熟,优先事项也会发生变化,届时安全、治理、道德、可解释性、可持续性和责任划分等问题会变得更加重要。
  • HPE将自身定位为这类成熟工作负载的首选解决方案,希望承担起相应的复杂任务。如果能够明确传达这一卖点,而且市场走势也确实与战略预期保持一致,那HPE应该有机会取得成功——其中可持续性因素的意义最大。此外,这样的策略也确实让HPE得以凸显其强大的高性能计算实力和市场地位,有助于巩固客户信心。

总结:

HPE的战略主要面向AI市场上的特定领域——处理HPC工作负载的部分。考虑到其中涉及的特殊需求和复杂性,这片小众市场也有可观的盈利机会。然而,最终结果仍取决于HPE能否有效传达自身价值主张与市场趋势的一致性。

AWS:“一切终归于云”……HPE:“真的吗?我不信”

在Discover的主舞台上,我们听到了两种截然不同的观点:

AWS的Matt Wood与HPE掌门人Neri一起登上了舞台。但令人惊讶的是,Wood发言的大意是“随着时间推移,我们相信大部分工作负载将逐步转移至公有云。”没错,他就这么当着全体HPE客户的面表达了这样的观点。

随后Neri用半开玩笑的形式予以反驳,称“这个世界是很复杂的,老哥。而且会永远复杂下去。”

不知道大家看没看过《伴娘》这部电影,里面两位伴娘都想在对唱里压对方一头。这次关于LLM的讨论,AWS和HPE两派也颇有这种意味。HPE提出的概念是:超级计算工作负载与常规云工作负载不同,而HPE掌握着可靠、可持续、高效运行这类工作负载的专业知识。而AWS这边不光是Matt Wood,CEO Adam Selipsky也强调说LLM将完全依赖于公有云所提供的海量算力资源。

在《伴娘》一片的结尾,两位主角重归于好,所以这两种观点可能也各有空间。虽然我们相信LLM所对应的公有云市场将不断壮大,但对这种增量还很难给出量化评估。

两位分析师对此做出这样的解释:

  • HPE需要发挥自身优势,其中一大核心优势就是超级计算。HPE可能不会与公有云直接竞争,但可以在市场上开辟出自己的专属空间。
  • HPE的LLM云将在未来半年左右全面推出,而决定战略能否成功的关键绝不止于这个阶段。相反,我们坚信这将是一段“长尾”过程,HPE战略的全面影响和结果需要更长的时间才会逐渐显现。
  • 一旦模型经过训练并准备好投入生产,对可持续性和其他因素的考量将变得更加重要。云可以作为初始开发和实验的良好“场地”,并在准备就绪后将模型全面引入HPE的生产环境。

总结:

我们相信HPE这种充分发挥自身优势(特别是在超级计算领域)的作法有其合理性。然而,在选定的AI市场领域内取得成功,恐怕将是一个长期的过程,而且需要在客户群体内为HPE塑造出AI参与者的人设。为此,该公司必须利用其分销渠道吸引更多以AI实力闻名的关键合作伙伴。

HPE必须通过关键合作伙伴关系,让受众意识到其AI能力

尽管在产品组合中广泛应用到AI,但HPE在AI领域的存在感并不算强。通过以下ETR数据,我们可以看到机器学习/AI市场上各家厂商的相应份额。虽然不见踪影,但HPE好在还有机会同技术领先者们携手合作、共享发展路径。

上图的纵轴所示,为净得分/份额趋势,以及机器学习/AI参与厂商在ETR数据集中的普遍度或者说“存在感”。首先值得关注的自然是三大云巨头:微软、AWS和谷歌,在图表当中也是一骑绝尘。它们无处不在,而且都在40%红色虚线的上方,代表着拥有强劲的AI业务势头。

Databricks明显也是调查当中的佼佼者。

OpenAI更加值得关注。我们浏览了7月份的ETR数据,可以看到OpenAI创下了新的记录,甚至在净得分上突破了之前Snowflake保持的极值。在接下来一段时间,OpenAI将成为绝对的主流,其势头甚至不输于IT领域的头部大厂。

HPE未能出现在榜单当中并不意外。也许随着时间的推移,该公司将逐步实现愿景,慢慢出现在甲骨文和IBM所处的位置。

下面来看两位分析师给出的观点:

  • AI市场上的多数公司都专注于训练大语言模型、重新训练现有模型和微调模型。
  • 但HPE采取了完全不同的切入点,其定位就是处理最重要、最复杂的模型,让客户充分利用HPE多年积累的计算、网络和存储技术优势。
  • HPE的这项战略能否成功仍是个未知数,至少还要一年时间才能评估HPE思路的有效性并确定客户反应。

总结:

HPE在AI领域的战略与各家竞争对手有所不同,其定位就是处理最重要、最复杂的模型,让客户充分利用HPE多年积累的计算、网络和存储技术优势。但HPE的这项战略能否成功仍是个未知数,至少还要一年时间才能评估HPE思路的有效性并确定客户反应。

值得关注的因素

最后,我们讨论了HPE在当前受关注领域所具备的竞争优势和面临的挑战。

讨论内容可以总结为:

  • 我们认为HPE的竞争优势主要体现在基于Cray技术的基础设施软件上,而不止于LLM范畴。
  • HPE的AI生态系统目前还很薄弱,缺乏模型仓库、模型共享和强大的软件栈支持。HPE可能需要与模型厂商合作来补齐这块短板。
  • HPE的一大潜在优势,可能是“自带模型”方法,即为客户提供一套简单易用的环境来训练AI模型,并提供全面的技术支持。
  • 另一大潜在优势,可能是HPE强大的部署和推理处理能力,这同样是AI领域的重要难题。对HPE来说,小型AI模型和边缘计算也许会带来可观的业务发展空间。
  • HPE对可持续发展的关注,可能会成为未来的差异化因素。但其仍面临着重大障碍,例如说服客户将数据转移至HPE环境当中。

总体而言,我们很高兴看到HPE在本届Discover上没有讨论量子计算。虽然噱头满满,但量子计算还远没有为实际应用做好准备,所以过多宣扬实在没啥意思。

写在最后:

HPE在AI和高性能计算市场的竞争优势,主要体现在其基础设施软件和处理大规模复杂模型的能力上。HPE在AI的部署和推理方面也具有潜在优势,且有望从未来各国对可持续性的关注中受益。然而,HPE仍面临着重大障碍,包括如何加强AI生态系统并说服客户将数据移交过来。

总的来说,我们对HPE在GreenLake中引入LLM即服务给予高度评价。此外,Neri领导下的HPE也开辟出了一条清晰的差异化竞争道路,随着时间推移应该有望转化为红利。HPE的AI云产品将在未来半年之内推出,目前还不清楚其集成度如何,因此我们将密切关注这个重要的成熟度指标。最后一个关键点在于,光是把HPC业务标记成AI还不够,HPE需要想办法真正从新战略中获取收益、赚到利润。

而这,才是真正决定成败的核心。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1