智东西
作者 | ZeR0
编辑 | 漠影
智东西5月31日报道,5月29日-30日,亚马逊云科技中国峰会在上海举行。峰会第二日,亚马逊云科技大中华区产品总经理陈晓建分享了构建和应用生成式AI的多款创新产品;亚马逊云科技大中华区解决方案架构总经理代闻以桥梁设计做精巧比喻,从三个方向分享生成式AI时代下架构的演进与迭代。
企业开展生成式AI应用落地的过程中面临新的挑战,主要体现在:1)底层算力资源短缺;2)缺乏合适的工具,用于访问和部署世界一流模型,从而进行端到端的生成式AI应用构建;3)缺少匹配自身需求的,可开箱即用快速上手的应用。
为了助力企业生成式AI应用落地,亚马逊云科技打造三层生成式AI技术栈:
1)底层是以GPU和自研芯片为代表的基础设施,用于基础模型的训练以及在生产环境中运行推理;
2)中间层是以Amazon Bedrock为代表的,提供可以访问所需基础模型,以及构建和扩展生成式AI应用程序的工具;
3)顶层则是以Amazon Q为代表的,利用基础模型构建的开箱即用的生成式AI应用程序,用户无需任何专业知识即可快速上手生成式AI。
一、技术栈底层:联手英伟达构建AI超算,上线零一万物、百川智能基础模型
亚马逊云科技大中华区产品总经理陈晓建谈道,生成式AI应用开始于基础模型的训练和推理,这两种工作负载对算力有大量需求,也是限制企业模型开发步伐的关键制约因素。
为了帮助企业降低经济压力,亚马逊云科技推出了一系列专门构建的、高性价比的芯片和计算实例供企业选择,用于运行模型的训练和推理工作负载。
今天的模型规模需要分布式的调度以及相应的存储和网络的性能。以训练500亿参数量的模型为例,需要提供1T(1万亿)token的数据量,如果用一张A100的GPU需要74年的时间才能完成,而用2048张GPU则只需要13天。Stability AI训练Stable Diffusion用了4000张A100 GPU,而Meta训练Llama 3则使用了超过16000张A100 GPU。
算法工程师通过分布式训练的技术,同时使用数千张甚至上万张的GPU卡来训练基础模型,需要更好的卡到卡之间,实例到实例之间的高带宽来降低通信延迟,提高GPU利用率,进而缩短整个集群的训练时间。
AmazonUltraCluster提供了超大规模、超高带宽以及超高稳定的高性能计算集群,FSx for Lustre和S3提供了高性能存储的稳定方案。
基于英伟达全新GPU资源的系列实例建立在亚马逊云科技的高性能存储和网络服务基础之上,支持广泛的编排选项和开源框架,通过EFA网络,允许企业配置高达2万个GPU的超级集群来支持最大工作负载。
Project Ceiba项目是亚马逊云科技为英伟达构建的AI超级计算机,由英伟达和亚马逊云科技联合开发,搭载了超过2万个英伟达Grace架构的Blackwell GB200超级芯片和亚马逊云科技第四代EFA网络。每个超级芯片可提供高达800Gbps的网络带宽,其算力将能达到惊人的414Exaflops。
基于英伟达 A10G GPU的Amazon EC2 G5实例在中国区正式可用,性能达到Amazon EC2G4DN的3倍,推理性价比提高了40%。
过去5年,亚马逊云科技在定制芯片领域的投资带来了机器学习训练和推理成本的大幅下降。其中,基于Amazon Trainium的Trn1 EC2实例和基于Amazon Inferentia芯片的Inf2 EC2实例,与基于英伟达GPU的Amazon EC2实例相比,可分别将训练成本降低高达50%,推理成本降低高达40%。
训练和推理也需要合适的软件工具。亚马逊云科技推出了Amazon SageMaker托管机器学习服务,帮助企业轻松构建、训练、微调和部署模型。
亚马逊云科技宣布来自零一万物的Yi-1.5 6B/9B/34B的基础模型在中国区域正式上线SageMaker Jumpstart,同时来自百川智能的Baichuan-2 7B基础模型也即将上线中国区域的SageMaker Jumpstart,为开发生成式AI应用提供更多基础模型选择。
Amazon SageMaker JumpStart是Amazon SageMaker的一项重要服务,可帮助客户获取、微调和部署来自业界最新公开的可用预训练基础模型,包括Meta Llama 3、Cohere Command等。
该服务还为机器学习从业者提供深度模型定制和评估功能,允许其通过已经使用的环境轻松访问基础模型。
此外,Amazon SageMaker HyperPod正式可用,专门助力大规模分布式训练,能够将训练模型的时间减少多达40%。
二、技术栈中间层:用基础模型加速应用构建,四大价值让生成式AI触手可及
技术栈的中间层对于大部分企业来说更加重要,构建生成式AI应用通常是从选用既有的基础模型开始,而不是直接参与构建基础模型。
所以如何选择更加适合自身业务的模型,便成为了企业首先需要作答的问题。
在模型选择方面,Amazon Bedrock是一项全面托管的服务,用户可通过单一的API访问来自Al21 Labs、Anthropic、Cohere、Meta、Mistral Al、Stability AI和亚马逊等领先AI公司的高性能基础模型。
值得一提的是最新推出的亚马逊云科技自研Embedding模型Amazon Titan Text Embeddings V2模型,针对检索增强生成(RAG)工作流程进行了优化。
另一款最新推出的Titan Text Premier基础模型,是Titan Text系列中先进的型号,旨在为各种企业应用程序提供卓越的性能,并对RAG及Agent提供了专门优化,提供了更高的准确性。
为了帮助企业选择合适的模型,亚马逊云科技正式推出了Amazon Bedrock模型评估功能,可将模型评估时间从数个星期压缩至几个小时。
在模型定制方面,Amazon Bedrock支持企业自定义模型的导入。企业可将基于Amazon SageMaker或其他工具开发的存储在Amazon S3里面的定制模型导入到Amazon Bedrock中,以完全托管的API形式进行访问,而无需管理底层基础设施。
目前Amazon Bedrock自定义模型导入已提供预览版,支持Llama、Mistral、Flan-T5三种流行的开放模型架构,同时还将在未来进一步扩展支持范围。
从数据准备到数据运用,亚马逊云科技打造了一套全面的数据服务体系,涵盖数据库、数据湖、数据治理、数据分析、机器学习和生成式AI五大维度。
该体系可以帮助企业连接现有的数据源,定制面向生成式AI应用构建的高质量企业数据资源,配合Amazon Bedrock提供的微调、持续预训练、RAG等功能,打造与企业业务相关的生成式AI应用。
为了进一步帮助企业使用RAG技术优化模型的个性化响应,亚马逊云科技正式推出了 完全托管的Amazon Bedrock知识库功能。
该功能支持企业使用上下文相关的内部数据自定义基础模型响应。Amazon Bedrock上的知识库会自动执行端到端的RAG工作流程,使用者无需编写自定义代码来集成数据源和管理查询。
在应用集成方面,Amazon Bedrock的Agent功能提供了一种工具,支持开发人员定义特定的任务、工作流程或决策过程,增强控制和自动化,同时确保与预期用例保持一致。
Agents for Amazon Bedrock现已支持Claude 3 Sonnet和Haiku模型。
亚马逊云科技还提供了一站式生成式AI应用开发工作站Amazon Bedrock Studio。借助这一工作站,开发者可以使用简单易用的交互界面进行模型选择、模型评估,还可以与团队成员协作,共同试验,创建和完善生成式AI应用。
在负责任的AI方面,亚马逊云科技承诺以负责任的方式构建服务,同时重点考虑公正性、隐私性和安全性、可解释性、可治理性、稳健性、透明性6大方面。
企业在构建生成式AI应用程序时,通常希望其客户和应用之间的交互是安全并遵守企业指导方针的。对此,亚马逊云科技推出了Amazon Bedrock的Guardrails功能,可帮助企业轻松实施生成式AI应用程序的保护措施,并根据自身需求和负责任AI政策进行定制。
同Amazon Bedrock上基础模型原生提供的保护能力相比,Amazon Bedrock的Guardrails功能可帮助企业用户阻止多达85%的有害内容。
三、技术栈上层:开箱即用的生成式AI应用
亚马逊云科技构建的生成式AI助手Amazon Q可帮助企业达成加速软件开发、发挥业务数据价值等目标。
目前,Amazon Q Developer、Amazon Q Business、Amazon Q in Connect、Amazon Q in QuickSight均已正式可用。
Amazon Q Developer可协助开发人员完成从编码、测试、升级应用到故障排查、安全扫描和修复、优化云资源等繁琐重复的工作,让开发者把更多时间专注于创新体验的开发,加快应用部署速度。
在实际应用中,Amazon Q Developer共包含3大核心应用场景:1)大规模消除技术冗余;2)提高开发人员生产力;3)近乎实时生成代码建议和推荐,帮助开发人员更快、更安全地进行构建。
为了帮助企业发挥大量难以访问和解析的数据的价值,亚马逊云科技推出了具有从任意数据中获取洞见能力的Amazon Q Business。
通过它,企业员工可以通过连接企业数据库,来提问关于公司政策、产品信息、业务结果、代码库、人员等诸多问题,从而总结数据逻辑、分析趋势并就数据进行对话。
Amazon Q Business有四大应用场景:统一的对话检索式体验、生成总结与提炼关键发现、提升内容创作的效率、简化任务流程。
Amazon Q Business中的Amazon Q Apps功能公开预览。借此创建应用程序非常简单,员工可以用自然语言描述他们想要的应用程序类型,或者只需告诉Amazon Q Apps从Amazon Q帮助解决问题的对话中执行即可。
Amazon Q Developer 和 Amazon Q Business截止到6月30号免费试用。
四、亚马逊云科技全方位助力人才成长,三大力量驱动架构创新
亚马逊云科技计划到2025年向全球2900万人提供免费培训,而目前已经有2100万人受益。
为了让更多的开发者有机会低门槛体验到前沿的生成式AI服务,亚马逊云科技推出了云上探索实验室CloudLab平台。开发者不需要注册账号、不需要购买云资源,只需扫码进入云上探索实验室,即可在24小时之内尽情构建。
同时,亚马逊云科技还为中国开发者量身定做了“从基础到应用:LLM 全景培训”课程。
生成式AI时代,构建应用有什么不一样的方法?有何种新的架构趋势?
亚马逊云科技大中华区解决方案架构总经理代闻说,技术架构演进过程里面不变的三个主题需求——基础组件能力,架构体系创新,多元技术融合。
代闻从桥梁发展历程入手,提出桥梁的发展和构建是由基础材料,建筑架构和多元化需求三者共同作用的结果,而技术的发展往往也是如此。
最基础的组件,例如材料、技术往往决定了能采用的架构。对于信息技术来说,最基础的材料就是算力。
云计算的最基础组件是计算、存储和网络,其中又以计算作为最核心的组件。
自2006年推出Amazon EC2服务以来,Amazon EC2从最初的70种实例类型增长到超过750种,亚马逊云科技在虚拟化技术和硬件加速方面正持续进步。
亚马逊云科技已发布五代Nitro芯片。Nitro提供了一个隔离的敏感数据处理环境Nitro Enclaves,可以为客户自己的实例带来额外的隔离,保护正在使用的数据免受任何未经授权的访问,即使是来自客户管理员级别的用户。
在自研处理器方面,从2018年的Amazon Graviton到2023年的Amazon Graviton4,每一代的Graviton都会上一代有两位数的性能提升,并且单位算力的功耗在不断下降。
亚马逊云科技在全球规模化提供的基于Graviton的Amazon EC2实例种类达150多个,已经构建的Graviton处理器数量超过200万个,并拥有超过50000客户。
如今亚马逊云科技的诸多托管服务都全面采用了Graviton架构,如Amazon DocumentDB、Amazon Aurora、Amazon RDS等,这些服务不仅提高了性能,还降低了成本,为客户提供了更高的性价比。
代闻认为,构建的风险管理意识非常重要,企业在构建时往往要面临着大量的不确定性,各种风险因素层出不穷,因此架构韧性成为了重中之重。
通过单元化架构,亚马逊云科技将IAM拆分成细小的计算和存储单元,实现了高可用性和极小的故障影响范围,不仅保障了服务的稳定性,也使得IAM能够每秒处理超过10亿个API调用。
架构创新的第三大驱动力量是多元技术融合。
通过Zero-ETL集成,亚马逊云科技消除了数据提取、转换和加载的复杂性,使得用户可以无缝地将数据从Amazon DocumentDB同步到Amazon OpenSearch Service,或者将 Amazon DynamoDB的数据直接用于Amazon Redshift的分析。这种无缝集成不仅简化了数据流动,也提高了数据的价值和业务的敏捷性。
结语:推动服务和架构创新,助力生成式AI普惠化
过去十年,云计算为创新和创业提供了前所未有的便利。未来十年,生成式AI带来了重塑各行各业的新机遇。
整体应用架构是多元技术均衡的结果,需要考虑成本、合规、扩展性、可持续发展、韧性、安全、性能、访问可达性、可用性等因素。一个良好的架构需能随着多元因素的影响不断演进。
亚马逊云科技的优良架构体系到现在已经超过十年,从卓越运营、安全、可靠、性能效率四个维度演进到六个维度,新增了可持续发展和成本优化。随着客户对各种组件更深入的使用,架构师的决定和组件选择会直接影响到整块的应用负载在云上的成本。
伴随着技术的进步,亚马逊云科技将继续推动架构的演进,通过创新的服务和架构,突破技术壁垒,助力生成式AI普惠化。