无数据不模型，生成式AI时代需要更强大的“数据基座”

作者：IT168企业级发布时间：2024-05-30

生成式AI时代，我们在卷什么？框架、参数、文本长度、多模态……虽然，这些都很重要，但模型并不是全部。真正能让企业用起来的大模型，涉及多个因素，其中最重要的一项能力就是数据。

“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。” 亚马逊云科技大中华区产品部总经理陈晓建认为，数据是企业在生成式 AI 时代取得成功的关键。

数据之所以重要，在于其能够为大模型提供源源不断的养分，驱动模型不断学习和进化，从而更精准地满足业务需求。因此，领先的大模型应用，不仅需要关注模型的构建，更要关注数据的收集、整理、分析和应用，以确保生成式AI能够真正为客户的业务带来实质性的提升。

具体来看，企业要想把自身数据应用于生成式AI场景中，一般需要几个重要能力，包括检索增强生成（RAG）、微调和持续预训练。RAG，通常需要依赖大量的上下文信息来实现高质量的输出；微调，数据本身已经是一个处理好的结构化数据，可以通过类似于提示符工具让大语言模型更好的理解；持续预训练，把大量业务数据持续输入到大模型进行训练。目前，亚马逊云科技Amazon Bedrock在这三大能力方面，已经能够实现，支撑着很多客户的实际业务场景。

那么，对于想通过大模型实现智能化升级的企业来说，到底如何去考量企业的“数据底座”能力呢？

1、利用现有数据支持微调或预训练模型的能力。

企业要想做一个基础模型，或者说从原始数据集到训练，打造基础模型需要解决三个问题。第一，需要找到一个合适的存储来承载海量数据；第二，需要一个有效的工具对原始数据以及结构化数据进行清洗和处理；第三，能够对所有数据进行一个有效的编目管理。

首先，在数据存储方面，扩展性和响应速度是关键。存储就是大模型的“炼丹炉”，需要能够承载海量数据。不管是微调，还是预训练基础模型，都需要海量的多模态数据，它的大小可以是TB甚至PB级别，文件格式也是多种多样，而且需要进行抽取处理转换，如果存储的支撑能力跟不上，显然不会提供好的用户体验。另外，存储性能必须跟上计算资源。避免因为数据传输瓶颈造成高昂计算资源的浪费，或是吞吐量瓶颈导致更长的训练时间。

值得一提的是，Amazon S3的容量、安全和功能都满足微调和预训练基础模型对数据存储上的要求: S3拥有超过200万亿个对象，平均每秒超过1亿个请求。专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能，能够进一步加快模型优化的速度。

其次，在数据清洗方面，企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例，经过清洗、去重后变成1.2TB的数据，再经过分词处理成大约3000亿的tokens，其压力可想而知。

亚马逊云科技提供了一系列的数据清洗工具，Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作，让企业专注于生成式AI业务创新。而Amazon EMR serverless采用的是无服务器架构，它易用使用，能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源，性能上拥有比开源快2倍以上的速度。

其三，在数据治理方面，企业难以在多个账户和区域中查找数据，也缺乏有效的数据治理工具。

大体来看，企业面临的数据治理难题包括：难以找到分布在各帐户和地区的数据，数据访问的控制很难管理且容易出错，数据分析师访问权限不足且缺乏相对应的工具技能，不用户没有简单的数据协同环境，数据治理隐藏在各种工具中。

如何解决数据治理难题？亚马逊云科技也有对应的核心产品！其中，Amazon DataZone可以让企业能够跨组织边界大规模地发现、共享和管理数据，不但能够为多源多模态数据进行有效编目和治理，而且还提供简单易用的统一数据管理平台和工具，从而为用户解锁所有数据的潜能。

2、将现有数据与模型快速结合，产生独特价值的能力。

众所周知，基础模型自身有一定的局限性，主要难点包括：缺乏垂直行业的专业知识，缺乏时效性（不知道最新发生的事情），容易生成错误信息，比如：幻觉问题，还会涉及用户敏感数据的隐私合规风险。

说白了，要想让模型真正产生价值，背后考验的是诸多硬核技术能力。看上去只是简单的对话背后，蕴藏着复杂的提示工程。整个链路要想炮筒，需要从企业数据库获取用户背景信息，从RAG获取上下文，最后才是用户的问题及问题相关的提示词，然后给出高质量答案。

其中，检索增强生成技术的关键是vector embeddings——向量嵌入，这一层也包括几个关键阶段，比如：获取特定领域数据源，通过分词将其分解为token元素（可以是单词、短语、段落或整个文档），然后通过LLM将这些token导出数值向量——即每个token的数字数组，这些向量放置在多维向量空间中并彼此靠近。最后，通过这一系列操作，人们成功将元素数据中内容关联问题简化为token元素间的距离计算问题。当你使用向量元素表示含义时，在生成式 AI 的背景下，它们被称为 “embedding”。

需要重点强调的是，RAG场景的核心组件就是向量存储，现代应用程序需精准理解用户需求并正确关联产品或内容，这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中，这些框架又依赖于功能各异的数据库，这使得数据库成为实施RAG技术的理想平台。

向量存储的理想情况是，将向量搜索和数据存储结合在一起。这样做的好处是，你无需额外学习新的向量存储，无需添加额外的组件和费用，无需迁移现有数据，将向量检索和现有数据关联时，也会有更快的体验。

在向量能力方面，亚马逊云科技已经在八种数据存储中添加了向量搜索功能，让客户在构建生成式 AI 应用程序时有更大的灵活性。预计，随着新用例的不断出现，亚马逊云科技在该领域的创新速度将会加快。

以图数据库为例，它擅长处理复杂关联，在社交网络、推荐系统、欺诈检测、知识图谱等领域被广泛应用。在实际应用场景中，知识图谱被广泛应用于制造业当中，用于建设跨产品生命周期集成的数字主线。知识图谱的优势在于，擅长结构化知识，并能够确保数据准确，劣势在于不能理解自然语言，只能做严格推理。基础模型和知识图谱正好相反，能理解自然语言但缺乏专业知识。然而，两者结合，可以获得更精确专业的信息以减少幻觉，也可以对不准确的回答进行溯源和纠偏。

亚马逊云科技专门构建了图数据库Amazon Neptune，并为其推出了分析数据库引擎，能够提升80倍的图数据分析速度，使用内置算法可在几秒钟分析数百亿个连接。Amazon Neptune通过将图和向量数据库整合在一起，能够实现更快的向量搜索。

3、有效处理新数据，助力生成式AI应用飞速发展的能力。

对生成式AI应用程序而言，基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间，基础模型每次调用时长往往达到秒级。此外，每次调用基础模型也会增加成本。很多企业反映，终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存，从而在面对类似问题时，可以不调用模型，而直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

在这一点，Amazon Memory DB内存数据库本身就是一个高速的缓存，同时也支持向量搜索。它能够存储数百万个向量，只需要几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景至关重要。

在有效处理新数据层面，我们依然要借助无服务器的能力快速占领生成式AI市场。无服务器的速度加上生成式AI的力量，能够让企业快速交付以创新为重点的更智勇气应用程序和功能。从无服务器为数据处理赋能的角度来看，Amazon OpenSearch Serverless可用于向量搜索，省去企业配置运维OpenSearch的负责，快速占领市场。

小结：

无数据不模型，数据是重要的底层能力，是生成式AI快速发展的基石。作为全球云计算的开创者和引领者，亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务快速增长。

无数据不模型，生成式AI时代需要更强大的“数据基座”

推荐体验

相关资讯

无数据不模型，如何解锁生成式AI的数据挑战？

“无数据，不AI”！生成式AI风起，Denodo以数据编织定义“下一个十年”

大智能时代的产业再分工：“无数据，不智能”可以休矣

AI时代需要什么样的云原生数据库？

亚马逊云科技：生成式AI时代，构建数据基座乃关键

近期资讯

无锡普菲特取得轻量化承载的轮式机器人底盘机构专利，有助于避免障碍划伤底盘本体

多家主机厂加码具身智能研究，2030年有望达到百亿美元市场规模 | 投研报告

小米15周年限定色！小米SU7“璀璨洋红”配色公布：今晚开售

DisplayHDR True Black规范修订，OLED显示器又要迎来变化！

OPPO ColorOS 15 1月升级名单公布涉及欧加13款机型

掌握五笔输入法：提升打字效率与准确性的实用技巧

普及风暴：Galaxy Z Flip FE 现踪迹，三星最亲民折叠屏手机

14000MB/s！致态TiPro9000系列固态硬盘开售：1TB仅需999元

前行者 S9 系列三模鼠标 1 月 6 日首销，99 元起

5年能100%国产化！华为利润最高的机型揭秘非Mate 60系

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响