去年底,ChatGPT横空出世,不仅吸引了全球各界的眼光,更是让生成式AI的热浪来袭。随后,Google、百度、阿里巴巴、360等纷纷下场,发布各自大模型产品,使得整个市场热度有增无减。
如今,亚马逊云科技也正式下场。作为云计算领域的头牌厂商,亚马逊云科技此次带来了Amazon Bedrock生成式AI托管服务、Amazon Titan大语言模型、Amazon EC2 Trn1n、Amazon EC2 Inf2以及Amazon CodeWhisperer全家桶式的组合式服务。
众所周知,越来越多企业意识到生成式AI所带来颠覆性的变化,也渴望能够利用生成式AI、大模型等强大的能力来改变自身。但强大的生成式AI后面是基础设施、大模型和模型应用等一系列复杂的组合,绝非简单搭建即可实现。
亚马逊云科技全家桶式的生成式AI组合无疑瞄准了当下生成式AI应用的痛点,通过一系列产品与服务来降低了生成式AI应用的门槛和成本,助力普惠AI的加速实现。亚马逊云科技大中华区产品部总经理陈晓建直言:“亚马逊云科技希望将生成式AI技术从研究和实验领域释放出来,不仅仅是大型科技公司的专属,而是让更多公司能够从中受益。”
什么是生成式AI的基石?
毫无疑问是云计算。本质上,生成式AI涉及到前端应用、模型库、大模型以及基础设施。像ChatGPT这种生成式AI应用,背后起到支撑作用的正是强大的基础设施。例如,公开信息显示,OpenAI在训练GPT-3大模型时用到了数十万个CPU、上万个GPU等大量基础设施资源。
因为需要消耗大量的算力和数据资源,所以生成式AI应用所面临的门槛极高。以基础设施层为例,训练大模型涉及到采取何种并行策略、如何进行高效数据存储、如何选择合适的数据精度以及如何实现动态负载均衡等等一系列问题。
因此,云计算平台无疑是生成式AI最为理想的基础平台。像亚马逊云科技这样的大型云服务商,本身就拥有强大的基础设施能力,能够满足生成式AI对于算力的强大需求,并且在并行计算、数据高效存储甚至运维等方面均有着丰富的经验,通过屏蔽底层基础设施的复杂性,为用户带来性价比更加出色的基础设施服务。
以训练为例,众所周知,大模型训练往往需要耗费大量的GPU,但GPU实际效果远非人们想象中那么理想。为此,亚马逊云科技针对生成式AI推出了两款优化的计算实例Amazon EC2 Trn1n 实例和Amazon EC2 Inf2 。训练实例Amazonn EC2 Trn1 由其自研芯片Trainium支持,可节省高达50%的训练成本。推理实例Amazon Inf2 基于其自研芯片Inferentia2 ,据称吞吐量提高了4倍,延迟降低了10倍。
陈晓建介绍:“Trn1n是一个网络增强型的新实例,网络带宽提升到1.6TB,旨在为大型网络密集型的模型训练来使用。Inf2则把云中推理成本降到了最低。”
除了基础设施之外,生成式AI要想真正用起来,也离不开模型层的服务,而亚马逊云科技有针对性的推出了Amazon BedRock,为大模型的应用打开了全新的思路。
在近年来的人工智能发展中,经历了“大练模型”到“练大模型”的过程。OpenAI GPT模型的发展历程也是如此,直到基于GPT-3.5的ChatGPT横空出世,极大打破了人们对于AI的认知,原来生成式AI在大模型参数足够多、训练数据足够出色的情况下,其“涌现”能力往往让人惊奇。
正因为如此,很多行业用户都在密切关注大模型的训练。例如,彭博已经在金融领域率先尝鲜,推出了拥有500亿参数的BloombergGPT,希望在日常业务中融入大模型的能力。
但要想真正把大模型用起来绝非易事,哪怕是一些行业龙头面对大模型的构建时也会束手无策。亚马逊云科技的思路是通过Amazon Bedrock,来降低大模型训练的门槛,推动生成式AI的普惠。
据悉,Amazon Bedrock是完全托管式的云服务,通过API提供无服务器的托管体验,客户无需担心实例类型、网络拓扑和端点等基础设施细节,用户可以通过API的方式来访问亚马逊云科技Titan大模型,以及AI21Labs、Anthropic和Stability AI等AI初创公司的预训练基础模型,可以为用户提供多种模型的选择。
“客户只要在Amazon S3中提供少量(低至20个)带标签的示例,就可以轻松定制Amazon Bedrock的基础模型,用于其特定用例。此外,客户还能通过Amazon Bedrock独家访问亚马逊云科技开发的最先进基础模型。”陈晓建透露道。
Amazon Titan大模型是基于亚马逊云科技20多年机器学习经验训练出来的,包括Titan Text和Titan Embeddings。Titan Text是基于总结文本生成、分类、开放式回答和信息提取等任务的生成式大语言模型。Titan Embeddings是一个文本嵌入式的大语言模型,能够把文本的输入翻译成包含语义的数字表达。
此外,亚马逊云科技还强调了数据隐私和数据安全的重要性。用户在Amazon Bedrock平台训练时,所有的数据都经过加密的,并且不会离开虚拟专用云(VPC)而且亚马逊云科技不会那用户数据再训练Titan大模型。
当前,埃森哲、德勤、Infosys 和Slalom 等客户已经在使用亚马逊云科技Amazon Bedrock服务。陈晓建介绍:“亚马逊云科技希望形成一个开放性、多元的底层模型环境。”
亚马逊云科技还针对开发者们发布了AI编码助手Amazon CodeWhisperer,面向所有个人用户免费开放,不设任何资质或使用时长的限制!
众所周知,生成式 AI 可以通过“编写”大量无差异代码来消除繁重、重复的编码工作,有利于开发人员进行其他创新。以Amazon CodeWhisperer为例,其帮助开发者基于注释生成代码,追踪开源参考,扫描查找漏洞。
此外,Amazon CodeWhisperer还可以帮助开发者创建代码胜任如下场景,比如常规、耗时的无差别任务,或是在使用不熟悉的API或SDK时构建示例代码,亦或要正确高效地使用亚马逊云科技API操作,还有其他场景比如编写读写文件、处理图像、编写单元测试等代码。Amazon CodeWhisperer还能利用亚马逊云科技在安全方面的积累来扫描各种安全问题,自动扫描代码中的安全漏洞并帮用户修复。
据悉,Amazon CodeWhisperer可以支持15 种编程语言,包括Python、Java 和 C++等,以及开发者最喜欢的集成开发环境 (IDE),包括 VS Code、IntelliJ IDEA 和 AWS Cloud9等。
亚马逊云科技大中华区数据技术专家团队总监王晓野介绍:“Amazon CodeWhisperer更像是一款插件,可以直接安装在开发者现有开发环境中,开发者可以通过注释的方式与Amazon CodeWhisperer交互。它类似开发者的智能助手,最主要的优势在于提高生产力。例如,使用Amazon CodeWhisperer之后,开发者无需切换到其他页面去查找文档。”
毫无疑问,生成式AI和大语言模型是革命性的,将深刻影响到每一个行和和每一个人。有研究显示,到2027年,全球生成式AI市场预计将增长7倍,将超过1000亿美元,将广泛应用到智能客服、内容优化与推广、智能辅助内容生产、对话系统、自动化产品设计等场景领域。普惠AI,让AI民主化是整个社会的大势所趋,而亚马逊云科技生成式AI全家桶式的服务组合,无疑率先在市场中降低了生成式AI的门槛,打开了普惠AI的局面。