利用亚马逊云科技数据分析服务构建生成式AI数据架构

作者：沧海一生笑2024发布时间：2024-06-26

关键字: [亚马逊云科技中国峰会2024, 生成式Ai数据架构, 数据底座构建, 非结构化数据处理, 数据治理管理, 云原生数据分析]

本文字数: 1900, 阅读完需: 10 分钟

导读

在亚马逊云科技中国峰会2024上,演讲者分享了如何利用亚马逊云科技的数据分析服务构建生成式AI数据架构。他们解释了在生成式AI时代,企业需要重新构建数据底座以支持非结构化数据处理、数据治理和数据质量管理。演讲重点介绍了亚马逊云科技的数据分析服务如何实现简单、可靠、可扩展和灵活的数据架构,从而支持生成式AI应用,实现个性化定制化的创新。

演讲精华

以下是小编为您整理的本次演讲的精华，共1600字，阅读时间大约是8分钟。

在当今生成式人工智能(Generative AI)时代的大潮下,企业构建自身的数据底座和数据分析能力以支撑定制化的AI应用变得至关重要。传统的数据架构面临着数据规模扩大、实时性需求增加以及运维成本攀升等诸多挑战,因此需要向云原生、托管服务和无服务器架构转型。

构建生成式AI数据架构需要关注四个核心因素:简单性、可靰性、可扩展性和灵活性。同时,还需要解决四个重要问题:半结构化数据向量存储与分析、非结构化数据处理、数据治理和数据质量。为此,亚马逊云科技(亚马逊云科技)提出了一套最佳实践。

首先,简化数据ETL(Extract,Transform,Load)流程,采用零代码方式,如Amazon Web Services Glue Zero ETL。以往,企业可能需要一个人维护800个ETL脚本,而现在Amazon Glue可以直接实现数据的自动复制,或者通过数据共享功能直接共享数据源,无需进行ETL转换。这一功能也体现在亚马逊云科技的数据仓库Redshift以及联邦查询中。

其次,提高系统的可靰性。在这一方面,亚马逊云科技分两个层面入手:一是通过Amazon CloudWatch Logs服务,对数据链路的所有操作和动作进行监控和日志存储;二是在数据摄入阶段控制数据质量,Amazon Web Services Glue Data Quality可以在ETL环节设置规则,确保输入数据的质量,避免在后续分析时出现质量问题。

第三,亚马逊云科技提供可扩展的托管服务和无服务器架构,能够根据业务负载的变化自动扩缩容,无需人工配置。所有亚马逊云科技数据分析服务都提供了无服务器(Serverless)架构选项。同时,亚马逊云科技的服务设计原则是针对具体场景选择合适的工具,使该场景下的性能达到极致,同时将成本降至最低。

第四,亚马逊云科技的客户最佳实践是采用存储与计算分离的架构。存储和计算资源被解耦,用户只需在需要时扩展所需的资源,避免浪费。这一点在亚马逊云科技的数据仓库Redshift和大数据计算服务EMR中都有体现。

第五,模块化构建数据架构。一开始,企业的业务需求可能不太丰富,只需使用基本的组件如数据仓库即可。随着业务增长,可以像搭建积木一样无缝接入新的组件,避免中断原有业务的同时满足新需求。

在具体的生成式AI数据架构方面,亚马逊云科技提出了一套完整的解决方案。首先是流数据处理环节,亚马逊云科技提供了托管的Kafka服务Amazon MSK作为消息队列,以及Kinesis Data Streams云原生消息队列。对于实时计算,亚马逊云科技有托管的Flink服务Kinesis Data Analytics。

接下来是离线数据处理环节。Amazon Glue是一个托管的Serverless Spark处理平台,提供了多种连接器,可以高效读取异构数据源,并通过可视化工具快速构建ETL数据管道,实现工作流监控和调度。Amazon EMR则相当于云上的Hadoop发行版,以集群方式运行Hadoop生态的组件,同时提供了与S3对象存储的高效集成。

在数据存储方面,Amazon S3对象存储可以通过优化分区、压缩格式等方式提高性能。对于非结构化数据,亚马逊云科技推荐先使用Embedding模型将其向量化,然后存储在向量检索引擎Amazon OpenSearch中,支持高效的语义搜索。

结构化数据的分析可以使用Amazon Glue的Spark计算引擎,或者亚马逊云科技的数据仓库Redshift。Redshift支持多种数据摄入模式,包括自动从S3加载数据、从Kafka实时流摄入,以及Zero ETL直连数据库。它还支持联合查询,可以主动连接外部数据库拉取所需数据。

此外,Redshift还提供了数据共享功能,如Data Sharing和Data Exchange,方便企业内外部共享数据。在数据治理方面,Amazon Lake Formation提供中心化的权限管理,可以精细控制到表、列、行级别的数据访问权限。

总的来说,在生成式AI时代,企业需要重构数据底座,加强对非结构化数据的处理能力、提高数据质量和安全性,借助亚马逊云科技云原生的数据分析服务构建灵活、可扩展、低运维的现代化数据架构。

这一架构的核心环节包括:流数据处理(MSK、Kinesis)、离线数据处理(Glue、EMR)、数据存储(S3、OpenSearch)、结构化与非结构化数据分析(Glue、Redshift、Embedding模型)以及数据治理(Lake Formation)。通过简化ETL、提高可靰性、实现自动扩缩容、存储与计算分离、模块化构建等手段,亚马逊云科技为企业构建生成式AI数据底座提供了完整的解决方案。

为了增强说服力,这里引入一个亚马逊云科技客户的真实案例。据介绍,这位客户之前的数据量高达15PB,为了支持如此庞大的数据仓库和数据湖,他们需要1500台物理服务器部署在数据中心,建设初期团队有100多人,后来扩大到200人。可见,如果企业要自建传统数据架构,将需要投入大量软硬件资源和人力成本。

相比之下,将生成式AI数据架构部署在亚马逊云科技云平台上,可以极大降低企业的运维和扩展负担。亚马逊云科技的托管服务和无服务器架构使得资源可以根据实际需求自动扩缩容,存储与计算分离让资源利用达到最优,模块化设计则支持业务灵活扩展,无需中断现有系统。

生成式AI应用场景中的一个典型例子是基于检索增强(Retrieval Augmented Generation,RAG)的对话系统。这类系统在回答用户提问时,需要从多个异构数据源获取相关上下文信息,再将这些信息与大语言模型结合,生成高质量的回复内容。

以一个企业内部HR智能助手为例,当员工询问某位同事晋升时的评价时,系统需要从员工信息数据库获取该员工的基本资料,从公司制度文档中检索相关政策条文,综合这些信息后由大模型生成回复文本。

这一应用场景对数据架构的要求是:首先需要高效的消息队列如MSK接收用户的请求,并通过流式计算引擎如Kinesis Data Analytics对请求进行实时处理;其次,需要从Amazon Glue数据集成服务中高效读取员工信息数据库和公司制度文档库,前者可能存储在亚马逊云科技关系数据库服务中,后者可能是非结构化文本存储在S3对象存储桶中;再次,需要将非结构化文本通过Embedding模型向量化,存储在OpenSearch向量检索引擎中,供语义搜索使用;最后,Glue的Spark作为计算引擎,将来自数据库和向量检索的结果传递给大语言模型,生成最终回复。

这个应用场景充分展示了亚马逊云科技生成式AI数据架构的运作流程和服务之间的协同,也体现了这一架构在实际业务中的应用价值。通过云原生的数据服务,企业可以高效整合异构数据源、处理各种结构化和非结构化数据、低成本支持实时和批量分析需求,为创新的AI应用注入强劲的数据动力。

另一个值得关注的场景是代码生成。当开发人员希望通过自然语言指令自动生成代码时,Amazon Glue的Notebook功能可以通过自然语言注释自动生成底层PySpark代码,并由Glue的Spark引擎执行,显著提高开发效率。这一功能由亚马逊云科技自有的Glue Codegen模型提供支持。

生成式AI应用前景广阔,从智能问答到文本摘要、代码生成、张量运算等,都有着巨大的创新空间。而要充分释放AI的创新潜能,构建现代化、云原生的数据架构是不可或缺的基础。亚马逊云科技为企业提供了一条完整的转型之路,通过采纳亚马逊云科技的最佳实践,企业可以简化数据处理、提高系统可靰性、实现资源弹性伸缩、存储计算分离降低总成本,并遵循模块化设计原则,为创新应用的持续发展打造坚实的数据底座。

下面是一些演讲现场的精彩瞬间：

亚马逊云科技中国峰会2024的主讲人感谢与会者的时间,并希望分享内容能为大家带来价值。

亚马逊云科技在数据分析领域提供了简化、可靠、可扩展和灵活的解决方案,助力企业高效利用数据资产。

亚马逊云科技中国峰会2024上,演讲者介绍了亚马逊在生成AI、实时计算引擎等领域的最新进展和应用场景。

亚马逊云科技在开源社区中采用了经典的KNN检索算法HNSW和FAISS，实现了在99%的召回率下10亿级别向量检索仅需10毫秒的延迟，并通过自然语言编写注释即可自动生成底层PySpark代码。

亚马逊云科技在2024年中国峰会上介绍了Spark的无服务器部署模式,可以自动扩展和管理资源,提供无运维的体验。

亚马逊云科技中国峰会2024:通过Redshift主动发起JDBC连接,实时同步Aurora MySQL或PostgreSQL数据,实现数据快速查询和联合查询。

亚马逊云科技在数据治理方面加强隐私安全和数据质量管理,通过权限管理和数据质量检测工具确保数据安全可靠。

总结

亚马逊云科技正在引领生成式AI时代的数据架构革新。在这个新时代,企业需要构建一个强大的数据底座来支持创新的生成式AI应用。亚马逊云科技提供了一系列数据分析服务,帮助企业简化数据架构、提高可靠性、实现可扩展性和灵活性。

这种新型数据架构需要解决四大挑战:存储和分析半结构化数据向量表示、处理非结构化数据、实现数据治理和保证数据质量。亚马逊云科技的解决方案包括零代码ETL管道、Amazon OpenSearch向量存储和检索、Amazon Glue数据质量控制,以及Amazon Lake Formation集中式数据权限管理。

通过采用亚马逊云科技的数据分析服务,企业可以构建一个低成本、高性能、安全可靠的生成式AI数据架构,为创新应用提供坚实的数据基础。亚马逊云科技正在引领企业进入生成式AI的新时代,开启数据驱动的无限可能。

2024年5月29日，亚马逊云科技中国峰会在上海召开。峰会期间，亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务，成为企业构建和应用生成式 AI 的首选。此外，活动还详细介绍了亚马逊云科技秉承客户至尚的原则，通过与本地合作伙伴一起支持行业客户数字化转型和创新，提供安全、稳定、可信赖的服务，以及持续深耕本地、链接全球，助力客户在中国和全球化发展的道路上取得成功。