生成式AI时代,我们在卷什么?框架、参数、文本长度、多模态……虽然,这些都很重要,但模型并不是全部。真正能让企业用起来的大模型,涉及多个因素,其中最重要的一项能力就是数据。
“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。” 亚马逊云科技大中华区产品部总经理 陈晓建 认为 ,数据是企业在生成式 AI 时代取得成功的关键。
数据之所以重要,在于其能够为大模型提供源源不断的养分,驱动模型不断学习和进化,从而更精准地满足业务需求。因此,领先的大模型应用,不仅需要关注模型的构建,更要关注数据的收集、整理、分析和应用,以确保生成式AI能够真正为客户的业务带来实质性的提升。
具体来看,企业要想把自身数据应用于生成式AI场景中,一般需要几个重要能力,包括检索增强生成(RAG)、微调和持续预训练。RAG,通常需要依赖大量的上下文信息来实现高质量的输出;微调,数据本身已经是一个处理好的结构化数据,可以通过类似于提示符工具让大语言模型更好的理解;持续预训练,把大量业务数据持续输入到大模型进行训练。目前,亚马逊云科技Amazon Bedrock在这三大能力方面,已经能够实现,支撑着很多客户的实际业务场景。
那么,对于想通过大模型实现智能化升级的企业来说,到底如何去考量企业的“数据底座”能力呢?
1、利用现有数据支持微调或预训练模型的能力。
企业要想做一个基础模型,或者说从原始数据集到训练,打造基础模型需要解决三个问题。第一,需要找到一个合适的存储来承载海量数据;第二,需要一个有效的工具对原始数据以及结构化数据进行清洗和处理;第三,能够对所有数据进行一个有效的编目管理。
首先,在数据存储方面,扩展性和响应速度是关键。存储就是大模型的“炼丹炉”,需要能够承载海量数据。不管是微调,还是预训练基础模型,都需要海量的多模态数据,它的大小可以是TB甚至PB级别,文件格式也是多种多样,而且需要进行抽取处理转换,如果存储的支撑能力跟不上,显然不会提供好的用户体验。另外,存储性能必须跟上计算资源。避免因为数据传输瓶颈造成高昂计算资源的浪费,或是吞吐量瓶颈导致更长的训练时间。
值得一提的是,Amazon S3的容量、安全和功能都满足微调和预训练基础模型对数据存储上的要求: S3拥有超过200万亿个对象,平均每秒超过1亿个请求。专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。
其次,在数据清洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens,其压力可想而知。
亚马逊云科技提供了一系列的数据清洗工具,Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。而Amazon EMR serverless采用的是无服务器架构,它易用使用,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源,性能上拥有比开源快2倍以上的速度。
其三,在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。
大体来看,企业面临的数据治理难题包括:难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,数据分析师访问权限不足且缺乏相对应的工具技能,不用户没有简单的数据协同环境,数据治理隐藏在各种工具中。
如何解决数据治理难题?亚马逊云科技也有对应的核心产品!其中,Amazon DataZone可以让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。
2、将现有数据与模型快速结合,产生独特价值的能力。
众所周知,基础模型自身有一定的局限性,主要难点包括:缺乏垂直行业的专业知识,缺乏时效性(不知道最新发生的事情),容易生成错误信息,比如:幻觉问题,还会涉及用户敏感数据的隐私合规风险。
说白了,要想让模型真正产生价值,背后考验的是诸多硬核技术能力。看上去只是简单的对话背后,蕴藏着复杂的提示工程。整个链路要想炮筒,需要从企业数据库获取用户背景信息,从RAG获取上下文,最后才是用户的问题及问题相关的提示词,然后给出高质量答案。
其中,检索增强生成技术的关键是vector embeddings——向量嵌入,这一层也包括几个关键阶段,比如:获取特定领域数据源,通过分词将其分解为token元素(可以是单词、短语、段落或整个文档),然后通过LLM将这些token导出数值向量——即每个token的数字数组,这些向量放置在多维向量空间中并彼此靠近。最后,通过这一系列操作,人们成功将元素数据中内容关联问题简化为token元素间的距离计算问题。当你使用向量元素表示含义时,在生成式 AI 的背景下,它们被称为 “embedding”。
需要重点强调的是,RAG场景的核心组件就是向量存储,现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
向量存储的理想情况是,将向量搜索和数据存储结合在一起。这样做的好处是,你无需额外学习新的向量存储,无需添加额外的组件和费用,无需迁移现有数据,将向量检索和现有数据关联时,也会有更快的体验。
在向量能力方面,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。预计,随着新用例的不断出现,亚马逊云科技在该领域的创新速度将会加快。
以图数据库为例,它擅长处理复杂关联,在社交网络、推荐系统、欺诈检测、知识图谱等领域被广泛应用。在实际应用场景中,知识图谱被广泛应用于制造业当中,用于建设跨产品生命周期集成的数字主线。知识图谱的优势在于,擅长结构化知识,并能够确保数据准确,劣势在于不能理解自然语言,只能做严格推理。基础模型和知识图谱正好相反,能理解自然语言但缺乏专业知识。然而,两者结合,可以获得更精确专业的信息以减少幻觉,也可以对不准确的回答进行溯源和纠偏。
亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。Amazon Neptune通过将图和向量数据库整合在一起,能够实现更快的向量搜索。
3、有效处理新数据,助力生成式AI应用飞速发展的能力。
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
在这一点,Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索。它能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景至关重要。
在有效处理新数据层面,我们依然要借助无服务器的能力快速占领生成式AI市场。无服务器的速度加上生成式AI的力量,能够让企业快速交付以创新为重点的更智勇气应用程序和功能。从无服务器为数据处理赋能的角度来看,Amazon OpenSearch Serverless可用于向量搜索,省去企业配置运维OpenSearch的负责,快速占领市场。
小结:
无数据不模型,数据是重要的底层能力,是生成式AI快速发展的基石。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务快速增长。