IT时报记者郝俊慧
“任何非常先进的技术,初看都与魔法无异。”写出《2001太空漫游》的英国著名科幻作家亚瑟·克拉克的著名三定律中,第三定律几乎是半个世纪科技发展的最佳注脚。
科技和文化,是人类与世界对话的语言,科技重塑了每一个时代,而文化则将变化镌刻在历史中。
从这个意义上看,“三十而立”的亚马逊,称得上是一个时代的魔法师,将“魔法”从“小说”变为“现实”:通过电子商务,数亿消费者可以跨越山海买到全球“好物”;通过上云,任何规模的公司可以从世界任何地方启动和扩展自己的业务……亚马逊开创的两大模式——电子商务和云计算服务,深刻改变了世界运行的方式。
如今,新的生成式AI时代来临,亚马逊还是领先者吗?
国外研究机构Synergy Research Group公布的最新研究报告显示,一季度全球云服务市场的前三大供应商分别为亚马逊云科技AWS、微软Azure和谷歌云,市场份额分别为 31%、25% 和 11%。挟人工智能之风,微软和谷歌在不断靠近。
亚马逊似乎并不着急。2023年告股东书中,亚马逊CEO安迪·贾西强调,生成式AI正逐渐演变为亚马逊下一个关键支柱业务,尽管自ChatGPT于2022年推出之后,大家关注重点都集中在生成式AI应用上,但亚马逊认为,生成式AI技术栈分为三层,而亚马逊对每一层都进行了深度探索。
2023年12月举行的re:Invent上,AWS全面披露了亚马逊生成式AI技术堆栈:底层基础架构层+中间基础模型构建工具层+上层基础模型AI应用层,版图逐渐完整,而在今年举行的亚马逊云科技中国峰会上,亚马逊云科技大中华区产品总经理陈晓建详细拆解了亚马逊云科技的AIGC三层技术栈。
底层:内外兼顾 双管齐下
毫无疑问,AIGC将对云服务提供商及底层基础设施产生深远影响。
仅仅有GPU并不是大模型能够顺利训练的唯一因素,分布式的调度能力、相应的存储和网络性能缺一不可,传统的数据中心正在转变为英伟达CEO黄仁勋所言的“AI工厂”。对于云计算服务商而言,紧跟英伟达最新GPU路线和自研芯片是两条必须同时迈步向前的路径。
在和英伟达合作方面,亚马逊云科技一向走得很远。去年年底,AWS是在云端配备英伟达GH200 Grace Hopper超级芯片的首家云大厂,双方联手推出首款结合Grace Hopper超级芯片与亚马逊UltraCluster扩展功能的云AI超级计算机Project Ceiba,而今年随着英伟达推出“新核弹”—B200,Project Ceiba也再次升级。搭载了超过两万个英伟达最新的Grace架构Blackwell 200 超级芯片和第四代 EFA 网络,每个超级芯片可提供高达 800 Gbps 的网络带宽,其AI算力能达到惊人的414 EFlops(每秒10万亿次浮点计算)。
此前黄仁勋在台北电脑展前演讲曾透露,训练一次GPT-4,使用Hopper,可能需要三个月;换成Blackwell,10000颗芯片训练同样大小的模型,只需要3吉瓦时,耗时10天。以此类推,Project Ceiba训练GPT-4大小的模型,可能只要五天。
除此之外,Amazon UltraCluster 还提供超大规模,超高带宽以及超高稳定的高性能计算集群。而FSx for Lustre和S3 提供了高性能的存储的稳定方案。这些方案与亚马逊云科技上广泛的编排选项结合,允许客户以最习惯的开源框架进行代码开发及部署。
在自研芯片方面,较之其他云商,AWS也已先行一步,自研服务器CPU芯片AWS Graviton4已经到了第四代,为生成式AI和机器学习训练设计的云端AI芯片AWS Trainium 也发布了第二代。
定制芯片使得亚马逊机器学习训练和推理成本的大幅下降,其中,基于Amazon Trainium的Trn1 EC2实例和基于Amazon Inferentia芯片的Inf2 EC2实例,与类似的基于英伟达GPU的Amazon EC2实例相比,可分别将训练成本降低高达50%(Trn1),推理成本降低高达40%(Inf2)。
同时,除了降本之外,自研芯片还实现了效能的可持续性,Amazon Inferentia2可以将深度学习推理能效提升高达50%,Amazon Trainium可以将深度学习训练能效提升高达25%。
除了底层硬件设施,亚马逊云科技在软件底层服务方面也有独门秘籍。已经问世7年的Amazon SageMaker托管机器学习服务,可让开发人员轻松构建、训练、微调和部署基础模型。如自动模型微调、分布式训练、灵活的模型部署选项、机器学习操作工具和面向负责任 AI 的内置功能等等,助力客户更快创新
据了解,国产大模型中,零一万物的Yi-1.5 6B/9B/34B和百川智能的Baichuan-2 7B基础模型豆浆上线中国区域的SageMaker Jumpstart。
中间层:加速生成式 AI 应用构建
与由不同芯片、存储、网络架构等等复杂内容组成的底层技术栈不同,亚马逊云科技的中间层只要记住一个词即可——Amazon Bedrock(基岩)。2023世界人工智能大会(WAIC)上, Amazon Bedrock成功入选大会“镇馆之宝”。
在游戏《我的世界》里,Bedrock是最基础的方块,不可被破坏,在亚马逊云科技的AIGC三层技术栈中,它同样是让用户放心的基础服务。
Amazon Bedrock是亚马逊云科技其是一项完全托管的服务,通过单个API提供来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和Amazon等人工智能公司的高性能基础模型(FM),以及通过安全性、隐私性和负责任的AI构建生成式人工智能应用程序所需的一系列广泛功能。
比如企业可以将基于Llama、 Mistral和Flan-T5开发的定制模型导入到 Bedrock之中,以完全托管的 API方式进行访问。这一全新功能让企业既可以使用SageMaker来持续预训练或者微调一个定制化模型,又能够充分享受Bedrock的诸多模型管理功能,而无需管理底层设施。
借助全新的Amazon Bedrock专有模型导入功能,用户能够将本地微调后的开源模型(Llama,Mistral及Flan-T5框架)上架Bedrock,以托管API方式来调用,无需运维。只需通过点击操作,客户就可以在Amazon Bedrock中访问其定制模型,无论这些模型是它通过Amazon SageMaker开发的还是用其他的工具开发的。只需模型通过自动验证流程后,即可使用Amazon Bedrock的一系列功能来加速其生成式AI应用开发。
模型评估也是一个非常实用的功能。至少在目前,还没有一个基础模型适应于所有生成式AI场景,客户需要去选择最适合他们的模型。Amazon Bedrock模型评估功能可以帮助客户找到最适合的模型,简化评估、比较和选择基础模型的过程,让评估模型的过程从几个星期缩短到几个小时。
通过Amazon Bedrock提供基础大模型服务和以自研芯片确保算力能力,亚马逊云科技试图以低成本和加速的方式,解答更多人对于这场由AI创新带来的困惑。
顶层:开箱即用的生成式AI应用
AIGC时代,每个企业都不想错过红利,但每个企业也都在问:AIGC究竟能给自己带来什么?关键难题在于,让生成式人工智能应用和助手真正发挥作用,它们必须了解组织的数据、客户、运营和业务,但如今的许多助手都无法轻松个性化,而且它们的设计也无法满足公司所需的数据隐私和安全要求。
作为亚马逊云科技的顶层应用,Amazon Q可以简单理解为一个新型生成式AI助手,一个亚马逊云科技架构框架、最佳实践、文档和解决方案实施的专家,它能够帮助企业用户快速学会应用AIGC的能力,比如学习不熟悉的技术、构建解决方案、发现问题、升级应用程序等,而且可以更快上手,极大程度上消除了技术门槛。
Amazon Q Developer可以被称为是企业的“AI程序员”,它可以协助开发人员完成从编码、测试、升级应用到故障排查、安全扫描和修复、优化云资源等繁琐重复的工作,让开发者把更多时间专注于创新体验的开发,加快应用部署速度。英国电信集团 (BT Group) 最近报告称,他们接受了 37% 的 Q 代码建议,澳大利亚国民银行 (National Australia Bank) 报告称接受率为 50%。
Amazon Q Developer最大的价值在于,让没有编码基础的业务经理也可以拥有完全匹配自己想法的软件功能。比如,你可以要求 Amazon Q Developer 在自己的电子商务应用程序中添加新的结帐功能,它将分析您现有的代码库,制定跨多个文件的实施计划,获得批准后,便可以在几分钟内执行所有必需的代码更改和测试。
Amazon Q Business 的愿景,则是让每个企业都能利用生成式人工智能的力量,从所有数据(非结构化和结构化)中获取洞察,采取行动并构建应用程序。
目前,几乎每家公司都拥有大量难以访问和解析的宝贵数据,拥有“数据矿山”却不会使用是大多数公司的窘境,借助 Amazon Q Business,员工可以通过连接到企业数据存储库以逻辑方式汇总数据、分析趋势并参与有关数据的对话,获得有关业务数据(例如公司政策、产品信息、业务结果、代码库、人员和许多其他主题)的问题答案。
目前Amazon Q Developer、Amazon Q Business 和 Amazon Q in QuickSight均已正式可用。
“今天所有人都有幸处在下一个技术变革的伟大时代,今天是成为构建者的绝佳时机,每个创新,都将对世界产生深远的影响。我们相信,亚马逊云科技在这个时代创造的技术,将使客户能够改变世界。”陈晓建表示。