在大咖云集的亚马逊云科技re:Invent 2023全球大会现场,大家最关注的焦点话题是什么?
对于这个问题,相信很多人都会不假思索地在第一时间给出答案——生成式AI。
然而生成式AI的应用以及大语言模型的训练,都对算力有着极高的需求。身为全球云计算开拓者和领军者,亚马逊云科技认为这意味着怎样的机遇?同时又带来了怎样的挑战?企业可以通过生成式AI实现怎样的转型升级?为了满足客户的迫切需求,亚马逊云科技又提供了怎样的解决方案?
生成式AI带来的机遇与挑战
“生成式AI带来的机遇非常明显,对吧?大家都已经有目共睹。”亚马逊云科技计算和网络副总裁David Brown向趣味科技表示,“我们希望亚马逊云科技能够成为运行这些工作负载的最佳场所,并且已经为此投入了大量资金和资源。”
David Brown指出,生成式AI的发展带来了极其广袤的市场,通过与NVIDIA等合作伙伴的携手合作,以及自研的Amazon Graviton和Amazon Trainium系列定制芯片,亚马逊云科技正在努力为客户提供更好的性价比,希望能够帮助客户以更低的成本引入和运行他们的模型。
而在挑战方面,如何帮助客户理解生成式AI,以及如何利用生成式AI为客户的业务服务,是当下生成式AI应用的难点,也是亚马逊云科技一直在努力的事情。在探索与试验的过程中,亚马逊云科技很快意识到,在Amazon Bedrock模型中为客户提供选择是正确的做法。为此亚马逊云科技在re:Invent 2023全球大会上宣布推出Amazon Bedrock更多模型选择和强大功能,让用户可轻松访问来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI以及亚马逊的多种行业领先的大语言模型和其他模型,从而帮助企业更加轻松地构建适合自身业务的定制化生成式AI应用,极大地降低了生成式AI应用的门槛。
当前面临的另一项挑战,是如何确保在客户需要时提供足够的GPU算力。为此亚马逊云科技一边持续在全球范围内构建数据中心和电力足迹,一边开展了多项技术和服务创新,包括推出Capacity Blocks服务,使得即使是在供应受限的环境中,也能够帮助客户找到电源、GPU和加速器,获得GPU访问权限,从而支持他们的生成式AI工作负载。
努力为客户提供更好性价比
强大的算力自然离不开强劲的芯片。在这方面,亚马逊云科技主要是通过两种方式来实现自己的目标。
一种方式是与NVIDIA的紧密合作。亚马逊云科技与NVIDIA携手进行了大量投资,将最新的NVIDIA GPU引入亚马逊云科技。继成为全球首家提供NVIDIA GH100 Grace Hopper数据中心GPU访问的云服务商之后,NVIDIA创始人、CEO黄仁勋又在re:Invent 2023全球大会现场宣布,亚马逊云科技成为全球首家推出NVIDIA GH200 NVL32实例的云服务商。
“在数据中心运行NVIDIA GPU的工作非常具有挑战性,工程设计非常困难,需要世界上最好的供应商才能做好这些事情。”David Brown表示,“我认为在这方面,亚马逊云科技确实比其他任何公司都要出色。”
另一种方式是投资和设计自己的定制芯片。在re:Invent 2023全球大会上,亚马逊云科技就宣布其自研芯片家族推出Amazon Graviton4和Amazon Trainium2等新一代产品,为生成式AI应用和机器学习训练等广泛的工作负载提供了更高的性价比和能效。其中Graviton4较上一代产品性能提升30%,独立核心增加50%以上,内存带宽提升75%以上;Trainium2较上一代产品训练速度提升4倍,能效提升2倍,并能在EC2 UltraClusters中部署多达100,000个芯片。
“芯片是用户所有工作负载的基础,如果你是一个希望运行生成式AI工作负载的客户,你自然会选择性价比最高、对自己来说最合理的芯片。”David Brown表示,“亚马逊云科技每一代自研芯片都持续提升性价比和能效,为客户提供了基于AMD、Intel以及NVIDIA等的最新芯片和实例组合之外的更多选择,这使得Amazon EC2可以为客户虚拟运行几乎所有应用和工作负载,同时也为客户提供了更好的性价比。”
利用生成式AI助力企业转型
如今越来越多的企业都对生成式AI投入了更多的关注。如何将生成式AI技术应用到自身业务,如何实现降本增效,如何为公司带来价值,也成为了广大企业正在努力研究的课题。
“生成式AI太新了,许多客户都在努力研究如何将这一技术应用到自己的业务当中。我真正需要思考的主要是两件事。”David Brown说道。
第一件事,是企业如何利用生成式AI的能力,并想出用这些能力为最终用户构建什么?David Brown认为这是每家企业都在考虑的事情,实际上在亚马逊云科技内部,就有团队通过机器学习实验室与客户合作,帮助他们构建概念证明,以实际测试生成式AI可以为客户业务做些什么。目前在帮助客户构建生成式AI解决方案方面,亚马逊云科技已经取得了很大的成功。
第二件事,是一旦企业有了一个生成式AI解决方案,那么就必须确保公司盈亏能够负担得起它的运行成本。因为如果运行成本太高的话,企业实际上是无法实施部署的。因此亚马逊云科技所做的就是帮助客户找到成本优化的方法。无论是改进开发模型的方式,还是通过像Trainium这样的自研芯片,亚马逊云科技都希望能够真正降低生成式AI应用的成本。
在re:Invent 2023全球大会上,亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian博士在主题演讲中重点介绍了亚马逊云科技推出的生成式AI技术堆栈。该堆栈包括了底层负责训练和推理的基础设施层、中间微调模型需求的工具服务层、上层构建生成式AI应用层等三个重要层级。通过对这三个层级的不断重构,亚马逊云科技能够为客户提供更具性价比和安全性的技术与服务,从而利用生成式AI更好地助力企业转型升级。
摩尔定律失效但芯片仍在进步
说起芯片,很多人都会想起英特尔创始人之一戈登·摩尔多年前提出的大名鼎鼎的“摩尔定律”,也就是集成电路芯片上可容纳的晶体管数目,大约每隔18个月便会增加一倍。
在上个世纪,摩尔定律被证明是有效的,并且着实推动了芯片市场的进步。然而近年来,由于晶体管尺寸和制造工艺的限制,摩尔定律也日益逼近极限。NVIDIA CEO黄仁勋就认为,这种蛮力增加晶体管的方法基本上已经走到了尽头,从而引发了众多业界人士有关“摩尔定律是否已死”的争论。
“摩尔定律的争论非常有趣,如果我们回到上个世纪,有时会看到英特尔工程师们在为如何让下一版CPU晶体管数量翻倍而绞尽脑汁,有时又会看到他们已经实现了晶体管翻倍,反而要为下一代产品故意做一些保留。”谈起摩尔定律的话题,David Brown如是表示,“但是令人惊讶的是,在几十年后的今天,我们似乎已经看到了摩尔定律的极限,因为现阶段物理问题的限制,我们在技术上已经无法再使CPU上的晶体管数量在短期内实现翻倍。”
David Brown指出,事实上除了增加晶体管的数量之外,还有各种各样的其他方法可以提升芯片的性能,包括改变设计芯片的方式,改变构建芯片的方式,改变为芯片提供能量的方式等等。因此即便是摩尔定律失效,也并不意味着芯片不会继续创新和提高性能。这就是Amazon Graviton和Amazon Trainium系列芯片向其他芯片制造商展示的意义所在。