从技术到商业，亚马逊云科技用生成式AI重塑行业未来

作者：数据猿发布时间：2023-10-29

亚马逊生成式AI

若问现在科技界的宠儿是谁，生成式AI一定拥有“姓名”。生成式AI不仅成为一个火热的创业赛道，也是科技巨头们的“兵家必争之地”。

一方面，这些科技巨头斥巨资跟进生成式AI技术创新，试图占据前沿阵地；另一方面，他们也注重把生成式AI技术引入自身优势业务体系，实现业务赋能，甚至业务重构。

在全球市场科技创新领域，亚马逊云科技一直屹立潮头，此次的生成式AI技术盛宴，当然不会缺席。

在10月24日刚刚结束的生成式AI构建者大会上，亚马逊云科技就提出了为用户构建完整端到端生成式AI的技术堆栈。

具体来说，亚马逊云科技从5个方面来助力企业和开发者释放生成式AI潜力：

选择合适的应用场景，从典型场景入手创新业务模式。

借助专门构建的生成式AI工具和基础设施，快速构建高性价比的生成式AI应用。

夯实数据基座，使用私有化数据，打造差异化竞争优势。

借助云原生服务，加速AI原生应用构建，助力业务敏捷创新。

借助开箱即用的生成式AI服务，消除重复性工作并专注创新本身。

根据IDC在2023年2月发布的全球CIO快速调研，金融、能源、医疗、法律行业的头部机构，在1年内都会尝试引进大模型以及生成式AI能力。

如今我们可以看到，这项预测已经成真。

为生成式AI定制数据

生成式AI，可以用一个公式呈现，即提示词+上下文+大模型=输出结果。

举个栗子，当一位客户想要更换球鞋的颜色，他会提出“我买的鞋子可以换成棕色的吗？”，提出问题便是提示词。

那么上下文是指，之前购买的历史对话信息，以及客户订单记录等数据。

然后需要寻求大模型，检索退换货相关策略，然后根据以往的售后处理案例，再给出结果。

这样，一个生成式AI应用真正的价值就体现了。

但我们要清楚的是，这其中的基础模型，并不是生成式AI的全部。

若说，在这些华丽的应用背后，有着一个非常关键要素——数据。

相比于传统的应用，生成式AI在数据的利用上，有一套特有的流程。

其所需的能力涉及到从数据/语料加工、基础模型训练/调优，到数据治理、知识召回、提示工程等一系列模块。

玩转数据，可是个技术活。

目前，已经有72%的头部科技公司指出，“管理数据”已经是阻止他们扩展AI用例的最大挑战之一。

就拿现在最为火热的向量数据库来说，它可以可加速AI应用程序的开发，并简化由AI驱动的应用程序工作负载的运作。

然而，作为一项相对较新的技术，目前能够做出高质量向量数据库的企业，并不多。

与此同时，用户的隐私等问题，也让企业对于私有数据的采用望而却步。

对于垂直领域模型的训练微调，都需要一定的数据累积。

但有些数据是无法共享，拿来公开训练的，比如医疗领域大模型，涉及患者个人、病历等私人重要信息。

另外，数据质量管控不到位、数据源分散或者出现数据孤岛、缺乏数据素养等问题，在很多企业中不知不觉积累了很多“数据负债”。

全球领先的解决方案

显然，面对如此复杂多变的挑战，企业需要一套全面且一站式的解决方案，才能真正让让生成式AI技术实现赋能。

简而言之，就是一个强大的“数据底座”。

其中包括，能够存储各种类型的数据库，然后能够提供将多个数据源打通的服务，最后，还需要确保数据安全并对其进行管理。

数据是每个企业的核心资产，构建差异化优势的基础。

数据作为企业最为核心的资产之一，是在生成式AI浪潮中构建差异化优势的基础。

为此，亚马逊云科技针对生成式AI的各项需求场景，特别定制了专有的数据库。

场景一：用户个人信息

对于一个生成式AI应用来说，要想让给出的结果更加贴合用户的需求，就需要结合每个用户自身的特点。

在把这些信息结合到Prompt里一起发送给LLM之后，就可以得到更加个性化的输出了。

针对这一需求，亚马逊云科技打造了Amazon RDS和Amazon Aurora这两个关系数据库解决方案。

其中，Amazon RDS是一项托管式关系数据库服务，总共提供了7种热门数据库引擎。

Amazon Aurora则是亚马逊云科技专为云平台打造的关系型数据库，具有着高性能、高可用、可扩展性强等特点，而且成本仅有同级数据库的1/10。

场景二：会话历史信息

除了个人信息外，用户对话的上下文信息，对于生成式AI应用的准确性来说也至关重要。

通过将历史对话记录和用户最新提出的问题相结合，并一起发送给大模型，便可以实现更好的用户体验。

对此，亚马逊云科技打造了Amazon DynamoDB和Amazon DocumentDB。

前者是快速且灵活的NoSQL数据库，对规模没有限制。非常适合无服务器的事件驱动型架构、遍及全球的弹性服务，以及高吞吐量工作负载。

后者是基于云原生架构，全面兼容MongoDB的托管NoSQL数据库。

场景三：私域知识库信息

众所周知，通用大模型存在着幻觉、信息时效性差，以及包括token长度限制等各种问题。

尤其是对于企业内部的信息来说，如果让LLM自由发挥，很容易就给出了错误答案。

但如果能有私有知识的加持，LLM就可以给出更为精准有效的回答。

为了利用这些私域知识，我们可以通过Embedding模型把它们变成向量，并存放在向量数据库里。

当有查询到来时，通过同样的Embedding模型生成新的向量，和向量数据库里的数据做相似度计算，返回最相近的结果。

可以说，如果把LLM比作是容易失忆的大脑，那么向量数据库就是这个大脑的海马体。

对此，亚马逊云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。

Amazon Aurora/Amazon RDS PostgreSQL，能够兼容开源PostgreSQL，易于学习。

Amanzon OpenSearch具备向量和倒排召回能力，可利用现有集群，同时能提供日志检索能力。

Amazon Kendra是基于机器学习的端到端智能检索服务，能够帮助用户使用自然语言搜索非结构化文本。

场景四：输出结果缓存

缓存，是一种存储数据的组件，作用就在于能够让数据的请求更快地返回。

直白讲，我们每次用网页查询后的信息，都会被缓存，当下次再访问的时候，加载就更快了。

对于生成式AI应用来说，用户发出请求时，需要调用模型，输出结果。

但是，就像ChatGPT这样的爆火应用，每天收到大量请求，就会出现高并发阶段，存储数据量暴增，数据库的磁盘IO就成为了瓶颈。

因为，数据库的速度和吞吐量，是影响生成式AI应用程序整体性能的重要因素。

这时，就需要一种访问更快的组件——缓存，来提升系统的整体性能。

就是将之前调用LLM输入输出结果进行缓存，当后续请求与之前输入「相似」时，直接就返回内存数据库调用结果，完成输出。

这样一来，就做到了就无需调用模型就能得到结果，不仅提高了应用的反应率，还降低了模型的调用成本。

亚马逊云科技对此提供了三种解决方案。

通过针对Redis或Memcached引擎的亚毫秒级的响应时间，Amazon ElastiCache可用作高可用性内存缓存，以减少访问延迟、提高吞吐量并减轻关系数据库或NoSQL数据库的负载。

Amazon ElastiCache for Redis可以提供查询结果缓存、持久会话缓存和整页缓存。

另外，Amazon MemoryDB for Redis专为带有微服务架构的现代化应用程序而构建，与Redis兼容、持久的内存数据库服务，可提供超快的性能。

通过解决这四大场景的需求，亚马逊云科技也就保障了每个企业都可以充分利用核心的数据，来构建自己独有的优势。

数据质量决定了模型质量，是构建应用的关键。

数据质量，不仅决定了模型质量，同时也是构建生成式AI应用的关键。

而数据治理，便是这些应用落地的保障。

Gartner数据显示，到2025年，寻求扩大数字业务规模的组织中有80%将因不采用现代的数据和分析治理方法而失败。

只有实施正确的管理策略，团队才能随时访问高质量的数据。

但是在实践中，创建正确的管理控制，往往既复杂又耗时。

ETL是指数据的提取、转换和加载过程。以往，业务数据往往需要通过ETL，才能进行分析从而提供洞察。

然而，这一过程非常耗时且复杂，需要管理复杂的转换代码和数据管道，以及投入一批具备专业ETL技能的工程师，曾被亚马逊云科技CEO Adam描述为「不讨好、不可持续的黑洞」。

数据集成不应是一项人工工作的无底洞，我们需要快速、轻松地连接到所有数据，并加以使用。

而“Zero ETL”，就是亚马逊云科技迈出的关键一步。

Amazon Zero ETL能够大大帮助客户简化数据ETL，减少数据质量问题。

具体来说，它没有ETL流水线，可以实现交易数据的实时分析和机器学习，还能综合来自多个Aurora数据库的数据见解。

此外，亚马逊云科技数据服务可以与外部数据库实现Zero的集成。

让数据实现一体化融合，将其数据库、数据服务底层打通，由此，数据就实现了「无感知」流动。

另外，亚马逊云科技提出了敏感数据保护方案——Amazon DataZone。

它使用内置治理的统一平台，能够跨组织边界解锁数据价值。

它支持整个集团的数据发现、管理跨部门的访问和使用生命周期，对数据的共享方式和授权人进行全面的控制和知晓审计的能力。

在以往，数据协作过程中，往往存在着重重困难。

比如指标定义不一致、可用数据难发现、数据权限难管理等。

通过Amazon DataZone，开发者和业务人员可以通过清晰指标的定义进行数据分析，开发者可以放心使用目录管理中的数据，还能在同一个平台上对数据进行可视化的订阅和授权。

这样，以上困难就都一一解决了。

而赋予Amazon DataZone关键能力的，就是可信赖数据集，和简化数据访问。

有了可信赖数据集，就可以对数据进行目录化，找到和发现数据。

而有了简化数据访问，终端用户就可以导航到Amazon DataZone的数据门户，并选择一个项目，来浏览他们的数据资产。

拉美最大的私营金融机构伊塔乌联合银行，就在使用Amazon DataZone进行简化数据治理。

数据安全与合规是重中之重。

数据安全与合规，贯穿了从模型训练、到微调，再到部署的整个过程，是重中之重。

LLM的火爆，虽然促进了众多生成式AI的繁荣，却也同时带来许多新的安全挑战。

提示注入、数据泄漏、过度依赖LLM生成的内容、训练数据污染等问题，林林总总防不胜防。

尤其是，通用模型使用少量的私有数据集自定义，就可以执行面向特定领域的任务。这个过程中，私有数据集的安全性和保密性，显然极为重要。

那么，我们该如何保护数据隐私，让数据更安全呢？

首先，Amazon Bedrock服务，就提供了数据隐私保护，严格做到了“您的数据由您自己控制”。

Amazon Bedrock服务后端实现的架构

它保证了客户的数据不会被用于训练Amazon Titan模型，也不会被共享给其他基础模型提供商。

客户的数据（提示词、响应、微调模型）是按用户隔离的，会被保留在相应的地理区域。

而且，客户在Amazon Bedrock中的数据是被加密传输和存储的，可以使用自带的密钥。

其次，Amazon DataZone可以保护数据在不同账号之间安全共享。

它可以保证跨组织的数据治理，确保授权的用户以授权的目的，访问被授权的数据。

在工作流的发布与订阅模式、数据的授权、通过数据项目和域来访问数据、基于实际使用量的计费、组织结构的复制、与API的集成商，它都保证了数据的安全。

全新生成式BI诞生

对于许多企业来说，都希望通过数据驱动业务，形成数据飞轮。

只有数据被充分利用和挖掘，才能发挥出巨大的商业价值。

举个例子，如果销售团队能更好地了解从免费账户到付费账户的转化率，他们就能优化营销和销售计划，从而增加收入。

但是，理解数据需要花费大量的时间、精力和知识。如何在海量数据中完成分析，并实现可视化，对于一个企业来说至关重要。

尤其是，对于那些不懂底层数据逻辑，以及没有任何代码基础的企业用户。

当前，业界常见解决方案是——BI工具，解决了大数据“最后一公里”的问题。

但是，在生成式AI爆发的当下，如何利用最新技术帮助企业释放数据价值，做出商业决策？

亚马逊云科技在自家的BI工具——Amazon QuickSight，推出了生成式BI功能。

通过将Amazon Quicksight的功能与Amazon Bedrock提供的大语言模型功能相结合，将其称之为生成式BI。

现在，企业用户中任何一个人都可以通过自然语言的提问，了解数据。

甚至，业务分析师还可以使用自然语言在几秒钟内快速编写和微调视觉效果，并将其添加到仪表板中。

无需学习语法，便可直接使用自然语言创建新的计算。

现在，创建一个新的仪表板或计算只需问几个问题即可，非常简单。

另外，业务用户还可以使用自然语言提示来生成分析报告，或在Amazon Quicksight中对其数据进行可视化演示。

只需用文字键入故事描述，就可以使用相关仪表板中的数据，创建你想要的效果。

比如可以让其生成对亚马逊云科技免费试用账号最感兴趣的客户分类报告，在报告生成后，他们可以根据需要对其进行修改，并与业务团队共享。

加速生成式AI技术革命

构建生成式AI应用，充满了挑战性。

这个过程中，涉及到接入和管理多家基础模型，还要连接不同的数据源，数据隐私和安全性需要保证。

金山办公的WPS AI，成功将大语言模型的能力全面引入了产品。

而背后的功臣之一，就是亚马逊云科技。

客户的数据隐私和安全，一直是WPS的第一优先级。

构建各种AI的过程中，亚马逊云科技不会使用客户数据来改进模型，也不会将客户数据与他人共享。客户数据均保留在该客户所在的区域中。

因此，Amazon Bedrock成功地助力WPS，加速了各种生成式AI的构建。它支持的领先大语言模型，在多个文字处理场景都符合金山办公的需求。

通过亚马逊云科技的技术，西门子也解决了诸多业务难题。

此前，西门子中国IT面对的难题有，企业内部信息分散、数据资料增长迅速、数据信息你传递能力不足等等。

对此，亚马逊云科技基于西门子数据（如西门子的产品和解决方案），开发了一款智能回答助手——小禹。

它是西门子中国业务知识一体化的解决方案，部署在西门子安全环境中。

除了GPT本身拥有的庞大知识库外，小禹还集成了西门子独特的知识系统，如西门子的各种产品和服务、平台和工具、内部流程等。

它能够及时响应，自动提取知识，快速定位内容（比如产品描述、用户手册、技术规格、营销材料、常见问题解答、法规等）。

它既省时，又减少了人工维护成本，还增加了信息透明度和知识共享。

从2023年初项目立项，到9月手机版发布，小禹持续在各个领域运用生成式AI能力，加速了西门子中国业务的发展。

在亚马逊云科技的助力之下，各大企业的生成式AI技术一定会继续蓬勃发展，发生更多革命性变化。

需要指出的是，生成式AI的市场竞赛才刚刚开始，作为一项潜力巨大的创新技术，它将给我们带来的惊喜将远不至于此。

生成式AI技术本身会如何发展，又将变革哪些领域的业务模式？这个问题的答案需要我们持续探索。接下来会如何，让我们拭目以待吧！

近期资讯

鸿蒙生态新增一“大将”,微众银行企业金融App全功能适配原生鸿蒙

【环球网科技报道记者张阳】在数字化浪潮席卷全球的今天，金融科技领域正经历一场深刻变革。

环球网科技 2024-12-26

《晓彤格调局》尽显时尚格调：关晓彤手持nova 13 Pro拍摄绝美大片

快科技12月26日消息，今天下午，关晓彤携手华为nova13Pro拍摄了不少绝美大片，并且晒出了自己的华为nova13Pro。影像体验是华为nova13Pro的一大亮点，前置采用6000万追焦双摄，配备6000万像素广角人像追焦镜头+800万像素5倍变焦人像特写镜头，实现了业界独家0.7X-5X全焦段人像。

快科技 2024-12-26

手机企业纷纷加码电竞赛道行业自研电竞芯片迭出

市场竞争激烈背景下，手机企业纷纷加码电竞（游戏）赛道，而搭载专用自研电竞芯片则成为各企业竞争的重要抓手之一。12月26日，一加Ace5及一加Ace5Pro正式发布。

证券时报 2024-12-26

上海市消保委调查：98%白领消费者想拥有家庭服务机器人

该报告显示，服务消费成为提振消费的重要力量，消费者对高品质、智能化服务需求日益增长，人工智能大模型有望成为服务消费的新风口。85.62%的受访者预期，在未来生活中，服务消费的开支占比将有所上升，其中43.85%的受访者认为这一开支将持续增长。

澎湃新闻 2024-12-26

科创引领·新质大庆|大庆科创引擎向“新”而进

科创引领·新质大庆——2024科技+产业对接大会将于12月26日举办。业内人士认为，在大庆“新”潮澎湃、科创引擎轰鸣的基础上，大会将成为大庆以科技创新引领振兴发展“加速度”的有力助推，为城市高质量发展、可持续振兴蓄势赋能。近年来，大庆市委、市政府将科技创新列入全市重点工作，顶格部署、顶格推进。

央广网 2024-12-26

AMD RX 9070 XT功耗、性能有惊喜！可媲美RTX 4080

快科技12月26日消息，AMD新一代最高端显卡已确认命名为RX9070XT，当然不是真正的旗舰，不可能去竞争RTX5090甚至是RTX5080。之前有曝料显示，RX9070XTTimeSpy基准跑分只稍高于RX7900GRE，还不如现有次旗舰RX7900XT，对比竞品大致相当于RTX4070Ti。

驱动之家 2024-12-26

更安全，更可靠：讯飞AI录音笔S8离线版评测

飞独有的离线录音转文字、同声转译等功能，以及国密级加密技术，是一只特别可靠的AI录音笔。

DoNews 2024-12-26

学而思AI学习机被指“答非所问”，AI+教育该如何破局

（记者翟智超）在教育智能化浪潮之下，学而思作为行业内颇具影响力的品牌，其AI学习机因被指出现“数学题给出英语回答”的情况，而备受关注。

蓝鲸新闻 2024-12-26

轻松掌握打印电脑图片的步骤与注意事项，让美好瞬间变成纸质作品

只要掌握一些基本的步骤和注意事项，就能轻松地把你喜欢的图片变成实实在在的纸质作品。如果你是用无线打印机，确保它和电脑在同一个网络下。如果你有多台打印机，确保选择你想要使用的那一台。

新报观察 2024-12-26

WTT发布陈梦的年度总结

不惧挑战，捍卫荣耀。期待在新的一年里继续发光发热，迎接更美好的未来！

光明网 2024-12-26

从技术到商业，亚马逊云科技用生成式AI重塑行业未来

为生成式AI定制数据

玩转数据，可是个技术活。

全球领先的解决方案

全新生成式BI诞生

加速生成式AI技术革命

推荐体验

相关资讯

亚马逊云科技生成式AI技术重塑跨境电商业务流程

亚马逊云科技：生成式AI加速重塑媒体与娱乐行业

生成式AI新篇章：亚马逊云科技助力重塑数字未来

亚马逊云科技生成式AI技术重塑出海金融客户服务体验

聚焦生成式AI，从基石到平台到应用，亚马逊云科技火力全开

近期资讯

鸿蒙生态新增一“大将”,微众银行企业金融App全功能适配原生鸿蒙

《晓彤格调局》尽显时尚格调：关晓彤手持nova 13 Pro拍摄绝美大片

手机企业纷纷加码电竞赛道行业自研电竞芯片迭出

上海市消保委调查：98%白领消费者想拥有家庭服务机器人

科创引领·新质大庆|大庆科创引擎向“新”而进

AMD RX 9070 XT功耗、性能有惊喜！可媲美RTX 4080

更安全，更可靠：讯飞AI录音笔S8离线版评测

学而思AI学习机被指“答非所问”，AI+教育该如何破局

轻松掌握打印电脑图片的步骤与注意事项，让美好瞬间变成纸质作品

WTT发布陈梦的年度总结

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响