本文字数: 2000, 阅读完需: 10 分钟
在这场演讲中,演讲者介绍了如何利用生成式AI发挥数据价值。他们解释了数据在生成式AI模型建立过程中的重要作用,以及亚马逊云科技提供的一些建议和服务来帮助企业充分利用自身数据构建生成式AI应用。演讲者还分享了一家公司如何在亚马逊云科技上搭建智能客服机器人和用户洞察分析系统的实践案例,展示了生成式AI在提升用户体验、优化服务流程和产品监控等方面的应用。整个演讲重点围绕如何利用企业自身数据,结合亚马逊云科技服务和建议,构建高质量的生成式AI应用,实现企业数字化转型。
以下是小编为您整理的本次演讲的精华,共1700字,阅读时间大约是8分钟。
在这个30分钟的环节中,我将为大家介绍生成式AI的理念,以及如何利用数据来推动生成式AI模型的发展。我的同事潘总也将分享他公司在这一领域的实践经验。
首先,每个企业的业务都与数据密切相关,数据是企业转型的根本。过去,我们与用户探讨如何利用数据实现企业现代化转型,讨论数据湖、数据库等概念。而现在,生成式AI成为了热门话题,每家企业都在思考如何利用生成式AI来帮助用户取得成功。因此,我今天将从数据出发,介绍生成式AI模型的建立过程中,数据所扮演的角色以及亚马逊云科技的相关建议。
数据的增长速度非常快,来源也各不相同,包括企业用户数据、个人消费者数据、设备数据等。在这个过程中,这些数据被用于训练生成式AI模型,而生成的AI数据又会反过来用于改进模型,形成一个正向循环,加速数据增长。根据IDC的预测,在未来五年内,全球数据量将以28%的复合增长率增长,到2026年将达到30万亿GB,其中90%为非结构化数据。这些海量非结构化数据对于生成式AI而言至关重要,只有高质量的数据才能建立出优秀的基础模型。
因此,在构建生成式AI模型的过程中,数据的端到端策略是当前数据官员非常关注的话题。我们先来看一下基础模型与数据的关系。基础模型是在海量数据的基础上训练出来的,亚马逊云科技在S3上存储了大量用于训练基础模型的数据集。而企业用户在获得这些通用的基础模型后,往往需要利用自身的数据对模型进行进一步微调,以适应企业的文化特点、语义习惯和专有词汇,从而获得满足自身需求的企业模型。
在对基础模型进行微调时,企业可以采用三种主要方式。第一种是检索增强生成器(RAG),利用企业的文档库、数据库等知识库,根据需求从中检索相关数据,对基础模型进行调整。第二种方式是利用企业的私有数据样本,对基础模型进行训练,尽管私有数据样本通常数量有限,但需要进行抽取和标注等工作。第三种方式适用于拥有大量私有数据的企业,可以直接利用这些海量数据对基础模型进行扩展训练,但成本相对较高。我们看到,企业正在采用这三种方式的组合来满足自身需求。
以RAG为例,对于一些实时变动的数据,如产品库存、天气数据等,企业无需每次变动都更新模型,而是可以将这些数据集中存储在Amazon S3上,模型直接从S3获取所需数据。S3已针对生成式AI的应用场景进行了多方面的优化,如提升对外带宽、支持容器化环境的CSI驱动程序、与开源机器学习框架的集成,以及发布高性能的S3 Express One Zone存储类型,降低训练成本。有客户使用S3 Express One Zone进行机器学习训练,整体成本节省高达60%。
对于利用私有数据样本的方式,亚马逊云科技的SageMaker平台已经支持了在平台上对基础模型进行微调的功能,让用户能够轻松利用自身数据对模型进行调优。
至于直接使用大量私有数据对模型进行扩展训练,亚马逊云科技的数据湖服务可以支持这一需求,企业可以在数据湖上的非结构化海量数据基础上,延续基础模型供应商的工作,对模型进行进一步调优。
在构建生成式AI模型的过程中,亚马逊云科技给出了三点建议,这些建议适用于所有使用生成式AI的企业用户。
第一点是利用自身数据。正如我之前所说,企业可以结合通用基础模型和自身数据,通过微调获得适合企业的定制模型,提高效率。
第二点是利用现有的数据架构。生成式AI只是企业整个数据架构中的一部分,企业无需为此重建数据底座架构,而是可以使用原有的数据管理和安全策略,将生成式AI应用纳入现有架构中。亚马逊云科技已经在现有基础架构服务中不断扩展新功能,以支持企业更好地构建生成式AI应用程序。以S3为例,亚马逊云科技在过去一年中为S3发布了一系列新功能,以提升其在生成式AI场景下的性能和应用,如优化底层网络架构、支持容器化环境的CSI驱动程序、与开源机器学习框架的集成,以及发布高性能的S3 Express One Zone存储类型等。对于已经在使用亚马逊云科技服务的企业用户,无需另起炉灶,只需直接使用亚马逊云科技不断升级的现有服务即可。
第三点建议是,企业应当成为自身生成式AI应用的最佳审核员。由于生成式AI应用中使用的是企业自身的数据,为满足现在和未来可能出台的法律法规要求,企业需要对数据的使用和管理负起责任。亚马逊云科技已经为企业提供了多种数据监控和合规工具,如Cloud Trail、Data Zone、CloudWatch等,企业可以利用这些工具来监控数据在合规性方面是否存在漏洞。
生成式AI的应用才刚刚开始,无论是企业用户还是亚马逊云科技,都处于学习和成长的过程中。我们将保持好奇心,与客户一起在这个过程中共同成长。
接下来,我将请到潘总为大家分享一下他公司Sherlox在生成式AI领域的实践经验。
潘总首先简单介绍了Sherlox公司的背景,该公司成立两三年,主要方向是AI加出海,旗下有两款核心AI产品:VOC(用户反馈分析)和智能客服机器人。这两款产品的主要目标用户群是全球化品牌客户,能够助力这些客户在全球实现营收增长。
对于品牌客户而言,提升用户体验是重中之重,用户体验可分为三个方面:服务过程、收集反馈、持续改进服务。为解决这些需求,Sherlox推出了智能客服机器人和VOC两款产品。
智能客服机器人的工作流程是:首先进行数据集成,将来自不同渠道的工单数据集中起来;然后进行意图识别,识别用户的实际需求意图,并根据识别结果激活相应的代理程序;代理程序回答用户的问题,无法解决的工单会转由人工客服处理;最后对机器人的对话记录进行分析,持续改进模型。
在意图识别环节,Sherlox使用了自研的行业意图识别模型和行业红线识别模型。行业意图模型能够精准识别用户的实际需求,而行业红线模型则用于识别涉及产品安全等重大问题的工单,确保这些工单能够直接转由人工客服处理。
对话分析环节的目的是追踪机器人的服务NPS、分析为什么无法自动化解决某些工单、收集优秀案例等,并将分析结果反馈给模型,持续改进模型的识别准确率。
在VOC产品方面,Sherlox提供了社媒监控和用户画像分析两种能力,前者用于监控市场舆情信息,后者用于分析用户对产品的评价,两者结合可为品牌客户提供全面的用户洞察。
在技术架构方面,Sherlox利用亚马逊云科技的多项服务构建了整体解决方案。在知识库构建环节,企业的私有数据会被清洗收集并存储在S3上;然后利用SageMaker训练语义匹配模型,包括使用Cohere等开源模型,也会训练自研的场景模型;在服务响应环节,会根据用户问题的意图识别结果激活不同的代理程序,这些代理程序的模型也是在SageMaker上训练和部署的;服务记录会存回S3,用于持续改进模型。
潘总分享了Sherlox智能客服机器人在多种场景下的应用,如售前、售中、售后等,并通过一个客户案例展示了使用该产品后工单处理效率和NPS的提升。
在VOC产品方面,Sherlox利用自研算法对海量用户评论数据进行分析,输出定性和定量的商品洞察报告,帮助品牌客户全面了解用户画像,效率远高于人工分析。
总的来说,这场演讲全面介绍了数据在生成式AI模型构建中的重要作用,亚马逊云科技为企业用户提供的建议和服务支持,以及Sherlox公司在智能客服和用户反馈分析领域的实践案例。通过利用亚马逊云科技的云服务和自身的AI算法,Sherlox为全球品牌客户提供了智能化的服务和洞察分析能力,助力客户实现全球业务增长。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技推出了S3 Express One Zone存储类型,延迟仅单位毫秒,旨在支持生成AI和企业应用环境,提高数据访问性能,降低整体应用成本。
亚马逊云科技在2024年中国峰会上展示了其自研的AI模型,能够精准识别客户反馈中的行业红线问题,保护品牌形象。
亚马逊云科技中国峰会2024:通过智能问答系统,为客户提供更加个性化和多轮的售前咨询服务。
亚马逊云科技通过AI算法能力大幅提高品牌客户洞察用户画像和舆情分析的效率,效果不亚于人工分析。
亚马逊云科技在2024年中国峰会上展示了其先进的大数据分析和AI模型技术,可以深入洞察海量数据,生成丰富全面的报告。
亚马逊云科技中国峰会2024演讲嘉宾展示了亚马逊的商品洞察报告和社媒报告,揭示了用户行为洞察和社交媒体声量变化情况。
在这个生成式AI和海量数据的时代,数据扮演着至关重要的角色。本次演讲重点介绍了以下几个方面:
总的来说,本次演讲强调了数据在生成式AI时代的核心地位,并介绍了亚马逊云科技为企业提供的一系列服务和最佳实践,助力企业顺利进入生成式AI时代。
2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。