2023年是生成式AI元年,人工智能与云计算第一次握手,让人类迎来科技创新的拐点。当无数企业卷入大模型之战,最终带来的不只是模型的种类越来越丰富、算力越来越强大,底层的数据支撑能力也在升级。
“生成式AI不仅需要强大的模型,还需要拥有一个强大的数据底座,能够打通不同环境、不同产品之间的壁垒,让所有应用可治理、可管控。” 亚马逊云科技大中华区产品部总经理 陈晓建,在re:Invent中国行主题演讲中表示,端到端的数据服务能力是大模型成功应用的一个关键点。
众所周知,亚马逊云科技之所以越做越大,秉承的一个理念就是逆向工作方法(Working backwards),他们构建产品的方式是,从百万客户的需求出发,才能持续引领创新。所以,在生成式AI时代,亚马逊云科技依然把客户需求放在第一位,通过安全、可靠以及全栈的企业级服务能力赋能客户。
从客户应用的角度看,只有大模型还不够,底层的数据服务能力也要跟上。那么,在现代技术堆栈快速变化的今天,底层的数据到底发生了哪些变化?re:Invent中国行,让我们看到底层基座能力的全面进化!
全面的数据服务
首先,通过大模型构建挖掘数据价值,离不开数据存储、查询、分析等全面数据服务能力的支持。很多客户利用AmazonS3构建了数十万个数据湖,不管是结构化数据,还是非结构化数据,都可以被用来分析,或者用于机器学习的使用。
另外,亚马逊云科技提供了八个专用数据库,包括大家熟悉的Amazon Aurora、Amazon DynamoDB等等,用户可以按需选择。而数据仓库Amazon Redshift,可以让用户拥有最广泛、深入的数据分析服务能力;大数据服务Amazon ERM,可以让数据处理更具广度和深度。
在托管数据库方面,亚马逊云科技提供了五种常见的数据库引擎,包括MySQL、PostgreSQL等开源数据库引擎,还包括商业数据库引擎Oracle、SQL Server等等。
为了满足不同类型的数据处理需求,re:Invent全球大会公布了诸多新发布:
1)Amazon RDS for Db2。在托管数据库服务Amazon RDS方面,提供5种熟悉的数据库引擎和灵活的部署方式以供选择,分别是MySQL,Postgre Oracle,SQL Server,今天又新增了RDS for Db2。
2)生成式AI时代,客户需要将向量数据和业务数据存储在一起,亚马逊云科技的服务中启用了向量检索。
3)Amazon OpenSearch Serverless,可以帮助客户简单、可扩展且⾼性能的向量储和搜索,⽽⽆需管理基础设施。
4)Amazon DocumentDB和Amazon DynamoDB数据库新增全新向量搜索功能。对于需要高模式灵活性或JSON数据的用例,Amazon DocumentDB客户现在可以将其源数据和向量数据存储在同一个数据库中。Amazon DynamoDB客户则可以通过与Amazon OpenSearch的Zero-ETL集成来实现向量功能。
5)Amazon MemoryDB for Redis的向量检索功能预览版。现在,MemoryDB客户可以获得具有高吞吐量和并发性的超快速向量搜索。MemoryDB可以存储数百万个向量,并提供个位数的毫秒响应时间,每秒数万次查询,单个碎片的召回率超过99%。
总之,基于亚马逊云科技全面的数据服务,用户无需在成本、性能和规模上去做利弊权衡,或进行某种妥协。
Zero-ETL 集成特性
要想让大模型“更聪明”,能够为业务所用,底层数据支持支撑上需要全面的集成能力。
通常,企业有各种各样不同的数据,并且这些数据散步在不同的产品、不同的业务环节,比如会涉及采集、传输、存储、清洗、分析、展示等等。在传统业务模式下,需要做很多ETL的工作,需要清洗、转化和加载,非常耗时费力。
去年,亚马逊云科技在re:Invent大会上提出了Zero-ETL愿景,当时实现了Amazon Aurora MySQL到Amazon Redshift的ETL打通。今年,亚马逊云科技推出了更多Zero-ETL能力。
以下为Zero-ETL最新发布:
1)Amazon Aurora PostgreSQL、Amazon RDS for MySQL和Amazon DynamoDB与Amazon Redshift的Zero-ETL集成预览版。加上之前宣布的Amazon Aurora MySQL,消除以前为了数据在这些业务系统之间移动而不得不做的繁琐的ETL工作的痛苦。
2)Amazon DynamoDB 与Amazon OpenSearch Service的Zero-ETL 集成。
3)Amazon OpenSearch和Amazon S3之间实现Zero ETL集成预览版,可帮助用户无缝搜索、分析和可视化存储在 Amazon S3 中的日志数据,而无需创建任何数据管道。
基于新的数据集成能力,客户能够分析不同来源的数据,无需自行构建和维护数据管道。
可治理
最后,数据作为大模型的基座,必须安全、可靠、可治理,这是所有客户的“红线”。
大模型虽然发展潜力巨大,但访问和控制永远是一对不可妥协的矛盾。如果我们授予用户过多的访问权限,当然会带来整个生产力的提升,但是同时也有可能会带来核心数据的泄露风险。但如果我们对于访问权限过于限制,毫无疑问,会限制员工的创造力。
所以,在保障数据安全的情况下,如何做到允许正确的员工来访问正确的数据,永远都是每个客户的共同诉求。这也是亚马逊云科技要发布Amazon DataZone的根本原因,从约束流程和操作方式开始,允许用户建立统一的数据目录,但同时建立严格的授权审批能力,让正确的人访问正确的数据,真正实现了用户既要又要也要的目标。
创新+治理,二者兼得,不让用户做选择,亚马逊云科技这种追求极致体验的品质体现在每一款产品的创新中。
在可治理方面,Amazon DataZone AI recommendations预览版已经发布,这是一项AI描述建议功能,能够为企业的数据集自动生成更易理解的业务描述,并提供该数据集的使用建议。同时发布的还有Amazon Clean Rooms ML预览版,这是第一个在不共享基础数据的情况下与合作伙伴一起构建机器学习模型的产品。
既保证业务敏捷性,又要确保数据的有效治理,亚马逊云科技从数据战略角度,描绘出负责任生成式AI的正确范式!
小结:
不管技术有多复杂,不管未来是怎样一种未知状态,亚马逊云科技始终践行Day one价值观,用重塑实现科技技术的普惠。展望未来,生成式AI像云计算、卫星网络等所有复杂技术一样,需要继续探索和创新。除了底层、中层以及上层的全栈大模型应用,亚马逊云科技在数据基座层面的创新,同样可圈可点。