亚马逊云科技：生成式AI时代，构建数据基座乃关键

作者：DoBigdata发布时间：2024-08-04

亚马逊生成式AI

无数据、不模型。

这是亚马逊云科技近日在媒体沟通会上提出的观点。

的确，在经历百模大战的洗礼之后，千行百业已充分意识到大模型所蕴含的巨大价值以及强大能力。但从一个基础大模型到最终在业务场景中发挥作用，企业依然面临着不小的挑战。这其中，数据能力看似不起眼，却是生成式AI时代把大模型用好的关键。

亚马逊云科技认为，利用现有数据支持微调或预训练模型、将现有数据快速结合模型产生独特价值、有效处理新数据助力生成式AI应用飞速发展是当前生成式AI时代重要的三大数据能力，通过三大数据能力可以构筑起生成式AI强大的数据基座。

正如亚马逊云科技大中华区产品部总经理陈晓建表示：“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”

数据是生成式AI取得成功的关键

当下，随着基础大模型市场的蓬勃发展，用户获取先进基础模型的门槛正在逐步降低。

从一开始大模型的诞生，就离不开大规模、高质量的数据集。如今，基础大模型正在尝试走入到千行百业之中，数据依然是绕不开的话题。

众所周知，每家企业自身积累的各种数据，是数字化中最大的差异化能力所在。如今，进入到生成式AI时代，如何利用自身数据结合基础大模型，恰恰是企业强化差异化能力的关键。

陈晓建介绍，通过Perplexity、亚马逊Rufus等真实案例的实践，数据是企业在生成式AI时代取得成功的关键。像Perplexity利用传统搜索引擎、客户数据与大模型的推理、文本能力结合，为大量用户产生了独特的价值。

事实上，当前数据与基础大模型结合的方式主要有三类：检索增强生成（RAG）、微调和持续预训练，不同方式适应的场景不同，对于数据能力的要求也不同。例如，持续预训练的数据集往往达到TB甚至更高的量级，并且数据本身多为原始格式数据，并不需要做太多预处理，但需要持续输入到大模型进行训练，以适应业务的持续变化。

亚马逊云科技介绍，三种数据与基础模型的结合方式是真正推动生成式AI应用的关键。目前，越来越多企业通过Amazon Bedrock来采用三种方式，进而逐步构建起生成式AI的强大数据能力和数字基座。

三大数据能力，让生成式AI走进现实

IDC预测，全球生成式AI市场年复合增长率将达85.7%，到2027年全球生成式AI市场规模将接近1500亿美元。越来越多的企业都在思考如何通过生成式AI创造更具竞争力的产品。

毫无疑问，建设自身的数据能力会成为生成式AI时代每家企业的标配。那么，生成式AI时代的数据能力主要包括哪些？企业又应该如何根据自身情况来建设？在亚马逊云科技看来，模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据来助力生成式AI应用飞速发展的能力是最为核心的三大能力，将是企业在生成式AI时代取得成功的关键所在。

具体来看，首先需要解决的就是海量数据的承载、清洗、加工与治理。众所周知，在多模态模型成为大势所趋的背景下，生成式AI应用往往需要海量、多元数据来训练、推理等。这就需要综合性的数据处理能力来支撑。例如，公开搜集的2TB英文数据集，经过清洗、去重后变成1.2TB数据，再经过分词处理成大约3000亿的tokens，整个过程涉及到繁重的数据清洗与加工任务。

针对海量数据的承载、清洗、加工与治理，亚马逊云科技通过Amazon S3、Amazon FSx for Lustre、Amazon EMR Serverless、Amazon Glue和Amazon DataZone等一系列数据产品组合，来帮助企业构建起强大的数据处理能力。以数据清洗、去重为例，涉及到大量的ETL工作，通过Amazon EMR Serverless 或者 Amazon Glue 可以高度自动化来完成数据清洗、去重至分词的各种操作，且无需关注底层资源的扩展、监控和管理等工作，效率大幅提升。

其次，将现有数据快速结合模型产生独特价值的能力也很关键。众所周知，基础大模型虽然能力强大，却也存在着缺乏垂直行业的专业知识、缺乏时效性（不知道最新发生的事情）、生成错误信息——幻觉问题以及用户敏感数据的隐私合规风险等缺陷。

为此，将现有数据快速结合模型至关重要。例如，在RAG场景中，向量嵌入很关键，需要将向量搜索与数据存储结合在一起，在无需添加额外组件和费用的情况，实现RAG。例如，亚马逊云科技已经在八种数据存储中添加了向量搜索功能，让客户在构建生成式 AI 应用程序时有更大的灵活性。像Amazon Neptune，将图和向量数据一起存储，内置算法实现几秒钟分析数百亿个连接。

第三，有效处理新数据，也会助力生成式AI应用飞速发展。目前从生成式AI应用的情况看，很多企业都反馈终端用户绝对大部分问题是类似甚至重复的，但基础模型频繁调用将会导致成本的增加和响应的延迟。因此，面对类似问题时，可以不调用模型，而直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

亚马逊云科技的思路是Amazon Memory DB、Amazon OpenSearch Serverless等产品，实现支持向量搜索的高速缓存，只需几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能。

在陈晓建看来，在生成式AI时代，数据能力的建设就类似一个飞轮，刚开始可能会遇到各种问题与挑战，一旦数据飞轮建立起来，并且运转起来之后，将会持续为企业在生成式AI时代带来巨大的价值。

“未来从基础模型训练到生成式AI应用构建的重要场景，涉及到海量多模态数据的处理、管理和应用。亚马逊云科技希望通过帮助企业构建三大数据能力，打造其强大的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。”

亚马逊云科技：生成式AI时代，构建数据基座乃关键

数据是生成式AI取得成功的关键

三大数据能力，让生成式AI走进现实

推荐体验

相关资讯

数据成生成式AI成功关键，亚马逊云科技如何为企业夯实数据基座？

利用亚马逊云科技数据分析服务构建生成式AI数据架构

生成式AI时代，亚马逊云科技瞄准国内哪些关键行业？

生成式AI时代，亚马逊云科技将成为企业生成式AI构建和应用的首选

亚马逊云科技塑造生成式AI的关键引擎

近期资讯

轻松掌握Photoshop笔刷安装与使用技巧，提升设计效果！

太钢不锈获得发明专利授权：“一种发动机高压共轨用不锈钢精炼的方法”

宏昌科技获得实用新型专利授权：“一种结构简单的减压阀”

如何优化手机应用设置提升使用体验与隐私保护

初次使用苹果手机的开机与基本功能指南，助你轻松上手！

古井贡酒获得实用新型专利授权：“一种方形玻璃瓶罐抓瓶机构”

盟固利获得发明专利授权：“一种固态锂离子电池用复合隔膜及其制备方法和固态锂离子电池”

天汽模获得发明专利授权：“一种模具上、下模气路连通装置”

如何为视频添加字幕以提升观众体验与传播效果

充分利用微信：提升生活质量的多功能指南与社交技巧分享

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响