当前位置:首页|资讯|亚马逊|AIGC

亚马逊云科技×观测云:AI Agent可观测性探索与实践

作者:沧海一生笑2024发布时间:2024-08-21

关键字: [出海日城市巡展, Ai开发挑战, 可观测性产品矩阵, Ai Agents运行时, 会话重放, 用户旅程性能]

本文字数: 1200, 阅读完需: 6 分钟

导读

在这场演讲中,刘刚先生阐述了AI开发所面临的挑战,如调试和监控的复杂性。他介绍了可观测性产品矩阵应包含的关键功能,如APM、RUM和监控告警等,以及如何通过会话重放、页面性能分析和用户行为分析来优化AI系统。他还分享了观测云在AI Agents可观测性方面的实践思考和未来规划,包括LongSmith平台的可视化分析、LLLM Tracing查看器和AIGC产品分析报告等,旨在帮助企业通过全方位的可观测性来应对AI开发的挑战,实现性能优化和成本控制。

演讲精华

以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。

在AI开发的过程中,复杂性是一大挑战。10年前,开发人员只需在本地编写几行代码,一旦出现错误,可以快速定位到具体的代码行。然而,现代AI开发涉及前端、后端、数据库等多个环节,出现问题时需要多个专业人员通力合作才能解决。这就好比开飞机,一旦飞行过程中出现故障,需要机组人员的紧密配合,成本和难度都很高。

为了应对这一挑战,可观测性产品矩阵应当包含应用性能管理(APM)、用户体验管理(RUM)和监控告警等核心功能。不过,除了常见的日志、指标等,我们还需要更精细化的管理手段。比如,当用户访问出现问题时,我们需要快速定位到具体的页面加载、后端服务还是数据库等环节。这就好比去三甲医院就诊,医生能够根据患者的情况快速判断病因并作出针对性的诊断和治疗方案。

在实践中,我们利用会话重放等工具,结合用户行为数据,将性能问题与业务场景相关联,从而提高投入产出比。我正在帮助一家订票网站进行优化,通过分析用户行为数据,我们将该网站首屏加载性能提高了80%左右,效果远胜于简单地增加带宽或服务器资源。另一个案例是,我正在为一家电商公司优化网站性能。该公司投入了大量广告费用,但广告点击后的转化率却不尽如人意。通过分析不同渠道(移动端、PC端)和不同年龄群体用户的行为数据,我们能够更精准地定位和优化用户体验瓶颈,从而提高广告的转化效率。

除了利用用户行为数据外,我们还需要从基础设施层面入手。不同的算法在CPU和GPU上的性能表现可能差异巨大。因此,我们需要根据具体的算法特点,选择合适的硬件资源,以获得最佳的性能和性价比。比如,几年前我们在本地调用一个时序预测算法,提升空间就非常有限。

为了更好地支撑AI代理的可观测性,观测云正在大力推进创新产品的研发。7月,我们将上线LLM(大语言模型)追踪查看器,可视化查看大语言模型的性能情况,包括延迟、调用成本等指标。通过火焰图的形式,我们能够看到用户会话的开始时间,请求开启的时间点,调用了哪些API,以及调用OpenAI等服务的大概成本。8月,我们将推出AIGC产品分析报告,用户可以通过观测云控制台,查看RUM、APM、告警等核心产品在全球不同区域的体验情况,无论是在欧美还是亚太地区,都可以使用不同的部署模式来体验。

观测云采用敏捷开发模式,每两周一次迭代,已经积累了大量的产品帮助文档,基本上很多工程师都不太需要我们的协助,他们就能够自己快速接入RUM和APM等功能。同时,我们也会持续输出可观测性实践案例,与开发者分享前沿经验,每周会有比较多的相关实践内容发布。

最近,我们正在探索将大语言模型与可观测性相结合,构建一个AI开发的Playground平台。在这个平台上,开发者可以进行开发、测试,并对线上应用进行监测和自动化优化。通过输入输出的注解,我们能构建可视化产品,查看每个会话的延迟、调用成本等指标。比如,我们正在与OpenAI等公司合作,利用他们的大语言模型服务,在Playground中开发一个语言模型应用。通过分析关键路径的分布情况,我们可以缩短某些阶段的耗时,提高整体性能。如果收集的维度足够多,我们还可以通过相关性分析等大数据手段发现性能瓶颈所在。

总的来说,AI代理的可观测性是一个全新的领域,需要创新的技术和产品来支撑。作为该领域的先行者,观测云正在积极探索和实践,致力于为AI开发的高效、可靠提供有力的技术保障。我们将与开发者携手并进,共同推动AI技术的创新发展。

总结

AI开发面临着前所未有的挑战,需要全方位的可观测性来应对。与传统开发不同,AI开发涉及前端、后端、算法等多个环节,任何一个环节出错都可能导致整个系统失效。为了确保AI系统的稳健性,我们需要从用户旅程、性能调用到基础设施层面进行全面监控。

观测云提供了一套完整的可观测性解决方案,包括APM(应用性能管理)、RUM(用户体验管理)和监控告警等核心功能。通过会话重放、页面性能分析和用户行为跟踪,我们可以高效还原问题发生过程,优化系统性能,提升用户体验。此外,观测云还在探索AI Agents运行时的可观测性,计划在今年7月推出LLLM Tracing查看器,让用户更清晰地了解大语言模型的性能情况。

无论您身在欧美还是亚太地区,观测云都可以为您提供灵活的部署模式,助力AI系统的高效运维。凭借丰富的可观测性实践和迭代更新,观测云将持续为用户带来创新的解决方案,共同应对AI时代的挑战。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1