伴随着人工智能技术近年来的飞速发展,越来越多的企业都认识到了生成式AI与大模型的巨大价值。而如何构建具有商业价值的生成式AI应用,也理所当然地成为了广大企业关注的焦点话题。
那么问题就来了:要想打造适合自身业务的生成式AI应用,企业应该从什么方面入手?又需要具备怎样的能力?
对于这个问题,亚马逊云科技大中华区产品部总经理陈晓建给出了这样的答案:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用,需要从数据做起。”
构建生成式AI应用的数据基石
“在生成式AI时代,数据是企业取得成功的关键。”谈到数据在生成式AI时代的作用,陈晓建如是表示,“每一家公司都能访问相同的基础模型,但是那些能够利用自己的数据,构建具有真正商业价值的生成式AI应用的公司,才会在这个时代取得成功。”
陈晓建指出,不同的企业运用自身的数据,才有了差异化的生成式AI应用。而通过数据定制基础模型的方式,则可以根据不同的应用场景,分为检索增强生成(Retrieval-Augmented Generation,简称RAG)、微调、持续预训练这三大类。亚马逊云科技旗下的Amazon Bedrock对这三类模型定制方式都提供了支持。
1、检索增强生成(RAG):企业可将自身的知识库、数据库等与生成式AI模型结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。该方式相对较为简便,适合知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等应用场景。
2、微调:使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。该方式的门槛介于RAG和预训练之间,适合角色理解、输入理解、输出格式控制等应用场景。
3、持续预训练:企业利用内部文档、客户记录等自身专有数据对模型进行持续预训练。该方式的门槛相对较高,成本较大,但是可以得到一个企业自身定制的行业大模型,适合理解行业领域知识/术语、严控数据合规等应用场景。
模型微调或预训练模型的能力
陈晓建指出,为了帮助企业构建生成式AI应用,亚马逊云科技拥有构建数据基座的三大核心能力,即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。这三大核心能力涵盖了从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力,在生成式AI时代取得成功。
对于模型微调和预训练所需的数据处理能力来说,从原始数据集到训练出基础模型需要解决三个主要问题:找到合适的存储来承载海量数据、清洗加工原始数据为高质量数据集、对整个组织内数据的发现编目治理。
首先,企业需要快速处理大量数据,因此需要存储能够承载海量数据、存储性能必须跟上计算资源,也就是扩展性和响应速度最为关键。Amazon S3拥有超过200万亿个对象,平均每秒超过1亿个请求,在容量、安全和功能上都能满足微调和预训练基础模型对数据存储的要求,亚马逊云科技专门构建的文件存储服务Amazon FSx for Lustre更是可以提供亚毫秒延迟和数百万IOPS的吞吐性能,进一步加快模型优化的速度和降低成本。
其次,企业需要进行数据清洗、去重、分词等操作。Amazon EMR Serverless和Amazon Glue无服务器数据集成服务,可以帮助企业轻松完成这些工作,让其可以更好地专注于生成式AI业务创新。
再者,企业需要解决查找数据、数据访问控制管理、数据访问权限设置、数据协同环境等多个数据治理难题。Amazon DataZone可以让企业跨组织边界大规模地发现、共享和管理数据,并且提供简单易用的统一数据管理平台和工具,让用户可以解锁所有数据的潜能。
数据结合模型产生独特价值的能力
对于生成式AI的基础模型来说,由于缺乏垂直行业的专业知识、缺乏时效性、生成错误信息幻觉问题、用户敏感数据的隐私合规风险等因素,所以存在一定的局限性。因此通过技术手段加速数据与模型的结合,使其产生独特价值,也就成为了企业数据基座的第二项关键能力。
检索增强生成(RAG)技术目前被业界普遍认为是实现数据与模型结合的主要途径之一。该技术通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。现代应用程序需要精准理解用户需求,并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
向量存储的理想情况是将向量搜索和数据存储结合在一起,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,在提升数据查询性能的同时,也让客户在构建生成式AI应用程序时拥有了更大的灵活性,从而释放更多的价值。亚马逊云科技还专门构建了图数据库Amazon Neptune并推出了分析数据库引擎,能将图数据分析速度提升80倍,从而从图形数据中快速获取洞察,实现更快的向量搜索。
新数据助力生成式AI应用发展的能力
对生成式AI应用来说,频繁调用基础模型会导致成本增加和响应延迟,因此如何处理生成式AI应用生成的新数据,提升模型调用效率并节约成本,也就成为了企业数据基座的第三项关键能力。
亚马逊云科技旗下的Amazon Memory DB内存数据库,可以通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。该数据库能存储数百万个向量,响应时间只需几毫秒,并能以99%的召回率实现每秒百万次的查询性能。
为了帮助生成式AI应用快速占领市场,亚马逊云科技可提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索,无服务器的速度加上生成式AI的力量,能够让用户最大限度减少运维负担和成本,消除性能瓶颈,从而更好地专注于生成式AI业务创新。而无服务器背后的安全隔离、故障处理、负载均衡、自动扩展、利用率监控等复杂工作,则可以交给拥有多年丰富经验和专业服务的亚马逊云科技负责,让用户彻底消除后顾之忧。
Amazon Music通过分析用户和歌曲的特征,将其转换成向量以提高推荐精准度。Amazon Music已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,为全球用户提供实时音乐推荐。Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,并能够处理每秒高达7,100次的查询峰值,有效支撑其推荐系统。
“作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”陈晓建说道。