通过高效的模型选择扩展生成式AI工作负载

作者：沧海一生笑2024发布时间：2024-12-22

关键字: [Amazon Web Services re:Invent 2024，亚马逊云科技，生成式AI， Amazon Bedrock， Generative Ai Workloads， Model Selection Efficiency， Intelligent Prompt Routing， Model Distillation Techniques， Bedrock Marketplace Models]

导读

在构建、部署和扩展生成式AI应用程序时，使用和管理合适的模型集以实现所需结果变得至关重要。Amazon Bedrock正在推出几项功能，旨在帮助您找到合适的模型，并在保持世界级性能和准确性的同时提高成本效率。参加本次会议，了解Amazon Bedrock Marketplace、智能提示路由和模型蒸馏。

演讲精华

以下是小编为您整理的本次演讲的精华。

在2024年亚马逊云科技 re:Invent活动上，亚马逊Bedrock的首席产品经理Shipra Kanoria与她的同事John Lew、Robin AI的Richard以及索尼集团的Masahiro Oba一同登台。他们的演讲重点是通过高效的模型选择来扩展生成式AI工作负载，特别强调了三个最近宣布的新功能:智能提示路由、模型蒸馏和亚马逊Bedrock Marketplace。

Kanoria首先强调了客户在构建生成式AI应用程序时面临的挑战:需要在基础模型的响应质量、成本和响应速度之间寻求优化。她解释说，虽然较大的基础模型提供了更高的准确性，但运营成本高且响应速度较慢。相反，较小的模型成本效率更高且更快，但无法与大型模型的精度相媲美。正如Kanoria所阐述的，目标是在保持大型模型的准确性的同时，实现较小模型的形态(更快、更便宜)，而新推出的功能旨在实现这一目标。

Kanoria首先介绍了智能提示路由功能，这一功能使客户能够在其应用程序中结合使用多个基础模型。该功能确保每个提示都被路由到最适合它的模型，从而提高准确性并降低成本，而不是仅依赖单一基础模型。智能提示路由目前处于预览阶段，提供了两个路由器:Anthropic路由器在Claude Sonnet 3.5和Claude Haiku之间路由请求，Meta提示路由器在3.1系列的LaMa 80亿和700亿模型之间路由请求。

Kanoria解释了智能提示路由的工作原理，客户需要提供三个输入:提示、希望使用的模型选择(来自同一模型系列)以及路由标准(较大和较小模型之间可接受的响应质量差异)。提示路由器会对提示进行编码，预测每个模型对该提示的性能，并根据提供的路由标准将其路由到适当的模型。

为了说明这一过程，Kanoria以Anthropic提示路由器为例，该路由器在Claude Sonnet 3.5和Claude Haiku之间进行路由。默认情况下，响应质量阈值设置为0%，这意味着只有当Claude Haiku的性能与Sonnet 3.5相匹配时，路由器才会将请求路由到Haiku，从而确保Haiku在性能相当的情况下以更低的成本提供与Sonnet 3.5相同的准确性。Kanoria强调，客户很快就可以配置这个响应质量阈值，根据具体用例和应用程序要求将其设置为更高或更低。

接下来，Kanoria演示了智能提示路由的实际运作，展示了一个简单的查询被路由到Claude Haiku，而一个更复杂的查询则被路由到Claude Sonnet 3.5。她强调了智能提示路由的好处，包括可以选择模型、通过单一无服务器端点访问、定义路由标准以及与地面真实数据对齐预测。

然后，Kanoria将重点转移到模型蒸馏上，即将知识从较大的“教师”模型转移到较小、更具成本效益和速度的“学生”模型的过程。Bedrock模型蒸馏自动化了这一过程，并提供了专有的数据合成技术来生成高质量、多样化的数据集，用于蒸馏模型。客户可以利用自己的生产数据(使用较大的教师模型生成，并在Bedrock Invoke和Converse API中启用调用日志)。或者，他们可以利用Bedrock的数据合成技术，提供提示或黄金标签数据集，Bedrock会使用这些数据生成合成数据来微调较小的模型。

Kanoria演示了Bedrock控制台中的模型蒸馏流程，展示了客户如何选择教师和学生模型(必须来自同一模型系列)、选择数据生成方法并提供输出指标。在这个时候，Kanoria邀请了Robin AI的Richard分享他们在使用Bedrock模型蒸馏方面的经验。

Robin AI的CEO兼创始人Richard强调，在法律领域，准确性至关重要，需要使用最大可用模型。然而，这种对准确性的追求往往会导致运营速度较慢且成本较高。为了解决这一挑战，Robin AI采用了Bedrock模型蒸馏，最初采取了“朴素方法”，依赖调用日志来微调较小的模型。

虽然经过蒸馏的模型在准确性方面(包括正确性、有用性、完整性和清晰度)与其他模型相当，但仍有改进空间。通过利用Bedrock的数据合成技术，Robin AI能够生成更加多样化和高质量的数据集，从而获得一个运行速度约为教师模型98%、同时实现显著成本节约的蒸馏模型。

进一步尝试不同的模型系列(包括亚马逊Nova模型)，Robin AI获得了更好的结果。通过提供少量黄金示例(经过策划的问答对)并利用数据合成技术，他们获得了一个不仅保持了教师模型性能水平，而且还超过了教师模型的蒸馏模型，同时实现了期望的成本和时间节约。

接下来，John Lew登台讨论了模型选择在扩展生成式AI工作负载中的重要性。他强调，模型选择使客户能够为其工作流程找到适合的模型，考虑因素包括特定领域知识、语言要求和专门任务。Lew介绍了亚马逊Bedrock Marketplace，它通过一种有服务器的产品将来自30多家供应商的100多个公开可用和专有模型引入Bedrock。

Lew强调了Marketplace中提供的各种模型，包括IBM和LJI Research的企业模型、Upstage、Win和AI and Prefer a Network的语言翻译模型、Evolutionary Scale的ESM3蛋白质序列生成模型等任务特定模型，以及用于不同模态的模型，如StabilityAI的Stable Diffusion 3.5用于图像生成，Cam AI的MARS 6用于音频配音。

Lew解释了Bedrock Marketplace的好处，包括在一个地方访问模型、能够使用Bedrock的API和工具，以及可配置扩展能力。他演示了控制台中发现和部署Marketplace模型的体验，展示了客户如何了解供应商、接受最终用户许可协议、配置端点并开始在Bedrock中使用这些模型。

为了说明Bedrock Marketplace的实际应用，Lew分享了客户使用案例。Zendesk是一家面向10多万客户的AI优先公司，计划集成Whinton的高性能模型，以实现多语种能力，使AI代理能够将常见问题解答翻译成本地语言并对敏感信息进行编辑。

此外，一家领先的韩国报纸旨在通过利用Upstage的Solar模型来现代化其校对流程。通过这种方式，该报纸的校对准确率提高了57.9%，并有望实现95%的错误检测和纠正率，这比传统的耗时且昂贵的校对方法有了显著改善。

索尼集团总经理Masahiro Oba随后登台，分享了索尼对生成式AI的看法。索尼拥有涵盖娱乐、制造、金融服务等多个领域的六大业务部门，将生成式AI视为一种强大的技术和增长驱动力。Oba强调了索尼的AI技术栈，包括应用程序、教育、硬件、数据利用以及由亚马逊Bedrock提供支持的大型语言模型平台，旨在实现索尼集团内部生成式AI的民主化。

Oba强调了为每个用例使用合适的大型语言模型的重要性，指出索尼的环境目前提供了73多个模型，而亚马逊Bedrock是最关键的来源。他分享了索尼集团内部生成式AI的用例示例，涵盖五个目的和十个用例，从通过AI助手自动化用户查询到各个领域的专门应用。

Oba强调了索尼对专门模型的期望，包括针对公司多元化业务组合的特定领域模型、用于边缘设备的小型语言模型以及用于成本效益更高的AI助手的轻量级模型。他对Bedrock Marketplace表示兴奋，该平台使索尼能够集成像Karakuri和Platform Network这样专门用于日语任务的专门模型。

Oba概述了索尼基于亚马逊云科技和亚马逊Bedrock构建的生成式AI架构，演示了Bedrock Marketplace如何使他们能够轻松地将各种模型集成到现有生态系统中。他强调了Bedrock Marketplace在提供更大模型选择自由方面的价值，并表达了索尼致力于提升Marketplace价值的决心。

总而言之，Lew总结了三个关键特性——智能提示路由、模型蒸馏和Amazon Bedrock市场，这些都是帮助客户在2025年及以后高效有效地扩展生成式AI工作负载的重要工具。他强调了智能提示路由如何根据准确性和速度等标准将提示路由到最合适的模型，而模型蒸馏则允许将知识从较大的模型转移到更小、更高效的模型。Bedrock市场提供了来自各种供应商的大量模型选择，使客户能够使用针对其特定需求量身定制的模型来支持其生成式AI工作负载。

下面是一些演讲现场的精彩瞬间：

演讲者强调了Bedrock的灵活性，允许用户使用现有的生产数据或从更大的教师模型合成生成的数据来微调较小的模型。

强调了在法律服务中准确性和细节的重要性，重点是提供由引文和参考资料支持的全面答复，即使需要使用更大、更昂贵的AI模型。

利用数据合成和蒸馏技术，亚马逊开发了一种高性能的AI模型，实现了显著的成本和时间节省，同时提供了卓越的性能。

推出了亚马逊Bedrock Marketplace，这是一个无缝的平台，可以通过几次点击发现和部署无服务器模型和第三方产品。

演讲者推出了基于亚马逊云科技和亚马逊Bedrock构建的最新UI差异生成AI架构，其中包括Bedrock Marketplace用于无缝模型集成和选择。

演讲者重点介绍了亚马逊Bedrock Marketplace，这是一个提供各种模型以推动生成AI工作负载的平台。

总结

在这个快速发展的生成式人工智能应用程序的世界中，亚马逊Bedrock引入了突破性的功能，以优化质量、成本和速度这一三位一体。智能提示路由允许无缝集成多个基础模型，根据预定义的标准将提示智能路由到最合适的模型。这种创新方法确保了最佳准确性，同时最小化了成本。

模型蒸馏是一种革命性技术，可将知识从较大的“教师”模型转移到更小、更高效的“学生”模型。通过利用专有的数据合成技术，Bedrock生成多样化和高质量的数据集，使蒸馏模型能够以可忽略的准确性损失实现卓越的速度和成本效率。

此外，亚马逊Bedrock市场推出了来自知名供应商的100多种公开可用和专有模型。这个全面的目录使客户能够探索特定领域的知识、语言专业化和任务特定模型，释放前所未有的模型选择和灵活性。

通过这些突破性功能，亚马逊Bedrock为企业提供了扩展生成式人工智能工作负载的工具，在质量、成本和速度之间达到完美平衡。拥抱亚马逊Bedrock的生成式人工智能未来，在那里效率和创新相遇。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者，亚马逊云科技正在携手广泛的客户和合作伙伴，缔造可见的商业价值 – 汇集全球40余款大模型，亚马逊云科技为10万家全球企业提供AI及机器学习服务，守护3/4中国企业出海。

通过高效的模型选择扩展生成式AI工作负载

推荐体验

相关资讯

英伟达推出用于大型语言模型和生成式AI工作负载的推理平台

生成式AI，让学习工作更轻松高效！

Nvidia发布最强大AI芯片GH200 Superchip以加速生成式AI工作负载

生成式AI+RPA，开启全新高效的可扩展业务自动化时代

亚马逊云科技：检测并应对生成性AI工作负载中的威胁

近期资讯

广东智子取得气流混合器专利，仅需单个喷嘴就能实现对粉体物料充分快速且无死角活化对流混合

安徽实特医药取得恒温磁力搅拌器结构专利，避免搅拌功率过高致液体溢出

删除的短信怎么找回

进鑫机械申请机械设备用高效热交换装置专利，提高热交换器工作效率

北检润和取得称重搅拌系统专利，解决实验室溶液制备问题

光合泰道智能科技申请基于安全深度强化学习的数据中心的冷却控制专利，不超过预设的温度安全阈值前提下最小化数据中心总能耗

如何在手机摄影中轻松关闭拍照声音，避免尴尬场合的干扰

山东卓智盈讯申请新一代信息技术智能散热装置专利，对高性能计算机周边产生的热量进行综合评估

江西德思恩申请折叠电子设备用散热材料专利，能在 40 万次折叠实验中性能更稳定

全面解析音响使用技巧，提升音乐体验的实用指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响