随着ChatGPT、GPT-4、BARD等生成式AI大模型的爆火,云服务商围绕生成式AI的竞争日趋激烈。
微软将Azure的企业级功能与OpenAI的生成式AI模型功能相结合,发布了Azure OpenAI服务;
紧随其后,谷歌开放了AI大模型PaLM的API,并在谷歌企业级线上协作平台Google Workspace中引入了生成式AI功能。
近日,亚马逊云科技也推出了一项名为Amazon Bedrock的生成式AI云托管服务,用户可以通过API访问AI21Labs、Anthropic和Stability AI等AI初创公司的预训练基础模型,还提供对亚马逊云科技开发的基础模型系列Amazon Titan FMs的独家访问。
国内云服务厂商如:百度、阿里、京东、360等,也都密集宣布AI大模型技术进展以及类ChatGPT项目计划。
事实上,在这场由ChatGPT掀起的巨大声浪中,云计算扮演着十分重要的角色。
比如,ChatGPT的模型训练需要大量的数据资源和计算资源,云计算则为模型的开发和运行提供了强大的技术基础,这或许也是国内外众多云厂商选择跟进ChatGPT的原因所在。
随着云厂商们加速对ChatGPT的布局,未来云计算市场的竞争格局是否会被重新改写呢?
众所周知,以ChatGPT为代表的生成式AI技术十分耗钱,背后需要依靠强大的AI模型和海量数据,其所需要的云服务算力成本十分庞大。
以ChatGPT为例,据SimilarWeb数据,2023年1月ChatGPT官网总访问量为6.16亿次;据《Fortune》杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元,如果使用总投资30.2亿元、算力500P的数据中心来支撑ChatGPT的运行,至少需要7-8个这样的数据中心,基础设施的投入都是以百亿计的。
但对于参与其中的微软、谷歌、亚马逊云科技、百度、阿里等厂商而言,其资金实力雄厚,足以覆盖投入大模型训练的云基建建设成本。
且随着未来大模型训练成本的进一步降低,云服务商也有其自身的优势。
相较于成本问题,生成式AI技术带来的前景不可小觑。
首先,AI大模型训练会为云厂商贡献大量的直接营收。
目前,云服务商的增速下降已经是摆在“明面上的事情了”。
据去年11月17日发布的阿里云季报显示,其增速已经降至4%,首次跌至个位数,在此之前其整体增速已经连续三季度低于15%了,创下了多年来新低;与此同时,腾讯云、华为云等前四大云厂商也都呈现出增速下跌的态势。
在此背景下,AI大模型训练无疑为其打开了新的空间。
据投资机构A16Z的研究数据发现,应用程序公司平均将约20%-40%的年收入,用于推理和定制化的微调。
这部分通常直接支付给云服务提供商,以获取实例或支付给第三方模型提供商,后者将大约一半的收入投入于云基础设施。
据此推算,生成式AI将有10%-20%的营收将直接流向云服务商。
另外,很多初创自有模型的企业,将会将其多达几十亿的风险投资中的大部分,用于支付给外部云服务商身上,以训练自有大模型。
对于云服务商厂商而言,这样的新兴市场无疑是特别值得期待的事情。
其次,AI大模型的使用将增加云服务商的市场竞争力。
从技术上看,对于NLP任务的场景,ChatGPT等AI大模型拥有更强的优势,能够智能化生成一系列文本内容,为用户提供更加便捷和高效的应用体验。
现在,各大云服务商也都推出了自己的AI大模型。
例如, 亚马逊云科技的Amazon SageMaker是业内知名的基于云的机器学习开发平台,可以使得机器学习模型的部署更加简单和有效,并且在模型更新和部署方面较为灵活。
近日亚马逊云科技推出的生成式AI托管服务Amazon Bedrock,则进一步降低了用户使用生成式AI的门槛,让用户可以自由地选择其自研的基础大模型Amazon Titan(包含基于不同场景下的两个子模型TitanText和Titan Embeddings),以及AI21Labs、Anthropic和Stability AI等业内领先的第三方基础模型,用少量的数据就可以在基础模型上训练自己的定制模型。
通过API的方式访问基础模型,构建生成式AI应用,不必自己管理和运维底层基础设施。
谷歌Cloud AI Platform则在模型调试和优化上比较出色,同时可以灵活运用GPU并行计算实现对模型复杂度和架构的把握。
微软Azure的Cognitive Services主要应用于语言音频、计算视觉等方面,可以帮助企业在多个领域应用AI技术。
总体而言,AI应用已经成为了云服务商的重点发展领域,推出AI大模型可以满足客户需要的AI应用,提高云服务商的技术实力和市场竞争力。
最后,AI大模型能促进云服务商自身技术研发的深度发展。
生成式AI或将推动整个云服务行业的整体升级。
据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年增长幅度高达10倍。
但根据摩尔定律,芯片计算性能每隔18-24个月才能翻一番,也就说芯片性能远远跟不上AI训练的算力需求。
云计算发展到今天,随着数据密集型场景越来越多。
比如,云计算从业务处理为中心转向数据处理为中心,CPU更多是在处理网络事务而不是用于计算,这相当于数据中心部署的很多服务器,被白白浪费了。
此时,解决之道是不再借助CPU,而是打造只为云计算服务的芯片,相当于云上的Windows系统。
为此,云厂商们也有了自己的想法。比如亚马逊云科技、微软、阿里等厂商均加大了自研芯片的力度,试图将AI引领下的“算力自由”牢牢掌控在自己手里。
例如,近日亚马逊云科技就宣布基于Amazon Inferentia2芯片的Amazon EC2 Inf2实例全面可用,打造最具成本效益的生成式AI云基础设施。
同时,亚马逊云科技基于Amazon Trainium芯片的新型Trn1n实例也正式可用,该实例将网络带宽提高了一倍,为训练生成式AI模型提供了更高的性能。
亚马逊云科技大中华区产品部总经理陈晓建在采访中举例道,在一个BERT环境中,如果基于英伟达的GPU实例并使用16个节点,简单的模型训练可能需要13个小时;但在内部测试中,基于亚马逊云科技自研的Trainium训练芯片,同样使用16个节点,只需要5个小时就可以完成训练。
同样,如果是基于NLP的大模型训练,需要8个GPU卡才能完成。
但是如果采用亚马逊云科技自研的Inferentia2,同样的负载只需要4个Inferentia2芯片即可,将用户整个硬件部署的环境、复杂性、和成本资金都降低一半。
随着生成式AI与云产品的加速融合,以及产业进入“深度用云”时代,基于云计算的AI能力逐步得到了企业与行业的验证。
AI与云的结合能够降低企业上云的门槛,同时凭借AI的深度学习能力发挥数据价值,为企业搭建更好的“用云”路径。
具体来说,随着AI大模型技术的成熟,未来整个AI应用的创新门槛更低(成本更低、迭代更快),初创企业可以基于大模型创新而不是底层的芯片层和框架层创新。
同时,企业在用云时候更多会基于云服务厂商的大模型成熟度,来选择云厂商。
例如,Airbnb、GE等国际大企业,已经在使用亚马逊云科技底层的计算资源、训练框架、训练平台,来进行自己大模型训练。
通过Amazon SageMaker,用户可以实现从数据标注、大规模分布式训练以及到机器学习模型运维和在线推理的完整的端到端的任务。
其中,GE Healthcare创建了一个以改进传统的 X 射线成像技术(如超声波和 CT 扫描)为中心的深度学习算法库。
通过将患者报告数据、传感器数据和许多其它来源的各种数据集合并到扫描过程中,该算法将能够识别正常结果和异常结果之间的差异。
根据最近的一项调查,82%的医疗决策者说,使用数据改善了病人的护理,而63%的人报告说再入院率降低。
事实上,这一变化为原本竞争已经固化的云服务市场带来了重估机会。
从全球范围来看,AWS第一、Azure第二、阿里云第三的局面,已经持续了很长时间了,从IDC的数据来看,至少五年内这种3A格局未曾打破过,紧随其后分居第四、第五位的谷歌云、IBM,始终被前三名的巨头压制着。
从国内市场来看,阿里云一骑绝尘的领先者优势也已经保持多年,市场份额第一很难撼动。
但随着生成式AI大模型的出现,这一局面或将得到彻底变化,这是因为更接近前端的应用普及,对云服务下半程的竞争至关重要。
值得一提的是,微软的高层在宣布接入ChatGPT之后,曾对外表示:“ChatGPT或将带动微软云超越亚马逊云。”同样的话,百度CEO李彦宏也说了一遍,他表示文心一言带来的优势,将可能引导百度智能云进入市场第一。从两大巨头的高层表态来看,生成式AI技术或将给云行业带来新的大洗牌。
需要指出的是,当前生成式AI技术的落地还存在一些不确定性,能否确实成为产业互联网的全新应用也还需要时间验证。
有业内人士表示,ChatGPT仍是个不成熟的产品,目前炒作的意味更浓,未来能不能真正带来产业价值还是一个未知数。
可见,生成式AI离真正的产业化还有相当距离,至少还需要不少的时间,能否真的为云服务产品带来革命式变化,以及撼动云服务市场格局,还需要进一步观察。
本文来自微信公众号“科技云报道”(ID:ITCloud-BD),作者:科技云报道,36氪经授权发布。