无数据、不模型。
这是亚马逊云科技近日在媒体沟通会上提出的观点。
的确,在经历百模大战的洗礼之后,千行百业已充分意识到大模型所蕴含的巨大价值以及强大能力。但从一个基础大模型到最终在业务场景中发挥作用,企业依然面临着不小的挑战。这其中,数据能力看似不起眼,却是生成式AI时代把大模型用好的关键。
亚马逊云科技认为,利用现有数据支持微调或预训练模型、将现有数据快速结合模型产生独特价值、有效处理新数据助力生成式AI应用飞速发展是当前生成式AI时代重要的三大数据能力,通过三大数据能力可以构筑起生成式AI强大的数据基座。
正如亚马逊云科技大中华区产品部总经理 陈晓建表示:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”
当下,随着基础大模型市场的蓬勃发展,用户获取先进基础模型的门槛正在逐步降低。
从一开始大模型的诞生,就离不开大规模、高质量的数据集。如今,基础大模型正在尝试走入到千行百业之中,数据依然是绕不开的话题。
众所周知,每家企业自身积累的各种数据,是数字化中最大的差异化能力所在。如今,进入到生成式AI时代,如何利用自身数据结合基础大模型,恰恰是企业强化差异化能力的关键。
陈晓建介绍,通过Perplexity、亚马逊Rufus等真实案例的实践,数据是企业在生成式AI时代取得成功的关键。像Perplexity利用传统搜索引擎、客户数据与大模型的推理、文本能力结合,为大量用户产生了独特的价值。
事实上,当前数据与基础大模型结合的方式主要有三类:检索增强生成(RAG)、微调和持续预训练,不同方式适应的场景不同,对于数据能力的要求也不同。例如,持续预训练的数据集往往达到TB甚至更高的量级,并且数据本身多为原始格式数据,并不需要做太多预处理,但需要持续输入到大模型进行训练,以适应业务的持续变化。
亚马逊云科技介绍,三种数据与基础模型的结合方式是真正推动生成式AI应用的关键。目前,越来越多企业通过Amazon Bedrock来采用三种方式,进而逐步构建起生成式AI的强大数据能力和数字基座。
IDC预测,全球生成式AI市场年复合增长率将达85.7%,到2027年全球生成式AI市场规模将接近1500亿美元。越来越多的企业都在思考如何通过生成式AI创造更具竞争力的产品。
毫无疑问,建设自身的数据能力会成为生成式AI时代每家企业的标配。那么,生成式AI时代的数据能力主要包括哪些?企业又应该如何根据自身情况来建设?在亚马逊云科技看来,模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据来助力生成式AI应用飞速发展的能力是最为核心的三大能力,将是企业在生成式AI时代取得成功的关键所在。
具体来看,首先需要解决的就是海量数据的承载、清洗、加工与治理。众所周知,在多模态模型成为大势所趋的背景下,生成式AI应用往往需要海量、多元数据来训练、推理等。这就需要综合性的数据处理能力来支撑。例如,公开搜集的2TB英文数据集,经过清洗、去重后变成1.2TB数据,再经过分词处理成大约3000亿的tokens,整个过程涉及到繁重的数据清洗与加工任务。
针对海量数据的承载、清洗、加工与治理,亚马逊云科技通过Amazon S3、Amazon FSx for Lustre、Amazon EMR Serverless、Amazon Glue和Amazon DataZone等一系列数据产品组合,来帮助企业构建起强大的数据处理能力。以数据清洗、去重为例,涉及到大量的ETL工作,通过Amazon EMR Serverless 或者 Amazon Glue 可以高度自动化来完成数据清洗、去重至分词的各种操作,且无需关注底层资源的扩展、监控和管理等工作,效率大幅提升。
其次,将现有数据快速结合模型产生独特价值的能力也很关键。众所周知,基础大模型虽然能力强大,却也存在着缺乏垂直行业的专业知识、缺乏时效性(不知道最新发生的事情)、生成错误信息——幻觉问题以及用户敏感数据的隐私合规风险等缺陷。
为此,将现有数据快速结合模型至关重要。例如,在RAG场景中,向量嵌入很关键,需要将向量搜索与数据存储结合在一起,在无需添加额外组件和费用的情况,实现RAG。例如,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。像Amazon Neptune,将图和向量数据一起存储,内置算法实现几秒钟分析数百亿个连接。
第三,有效处理新数据,也会助力生成式AI应用飞速发展。目前从生成式AI应用的情况看,很多企业都反馈终端用户绝对大部分问题是类似甚至重复的,但基础模型频繁调用将会导致成本的增加和响应的延迟。因此,面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
亚马逊云科技的思路是Amazon Memory DB、Amazon OpenSearch Serverless等产品,实现支持向量搜索的高速缓存,只需几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。
在陈晓建看来,在生成式AI时代,数据能力的建设就类似一个飞轮,刚开始可能会遇到各种问题与挑战,一旦数据飞轮建立起来,并且运转起来之后,将会持续为企业在生成式AI时代带来巨大的价值。
“未来从基础模型训练到生成式AI应用构建的重要场景,涉及到海量多模态数据的处理、管理和应用。亚马逊云科技希望通过帮助企业构建三大数据能力,打造其强大的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”