企业智能之路（2）：着手进行企业智能的技术准备和实践

作者：沧海一生笑2024发布时间：2024-07-18

作者：张侠博士亚马逊云科技首席企业战略顾问

拥抱AI时代已经成为各行业大多数企业的共识。企业高管制定总体的企业AI战略蓝图之后，需要着手对生成式AI总体的技术要求进行准备工作。企业领道和IT高管要回答一系列的问题：生成式AI有哪些关键要求，如何选择大模型，如何准备好数据，如何选择有关的技术工具，采纳利用生成式AI技术构建部署企业应用，帮助企业用生成式AI创造差异化竞争力和创造价值。对此我们做以下该概括综述与介绍，供您参考

1. 生成式AI平台与应用的技术应用堆栈

广义的机器学习应用的技术架构通常包含六层，自下而上它们是：1. 机器学习基础设施；2. 数据层；3. 机器学习框架与模型；4. 机器学习工具；5. 业务逻辑层；6. 人工智能应用层。而生成式AI的核心技术通常被概括为三层：1. 机器学习基础设施层；2. 机器学习框架与工具层；3. 利用基础模型构建的人工智能应用。相比于六层模型，在三层技术栈中，建各类IT应用均需要的数据和业务逻辑被省略掉，而机器学习框架、模型与机器学习工具被整合在了一层。

企业建立端到端的AI应用所需的主要步骤：1. 选择业务场景和用例，定义应用范围； 2. 建立新的或选择已有的基础模型；3. 对模型预训练、精调调配；4. 部署模型推理，与应用进行集成。5. 对模型和应用的持续评估、监控和改进。

2. 选择大模型并视需要进行模型的适配和调整

建立基础模型是一项繁重艰巨的工作，需要很强的技术资源和资金投入。对大多数企业来说，选择已有的合适的基础模型，并在此基础上可以用自己的数据进行预训练，以得到最适合企业的大语言模型。选择了基础模型之后，企业可以利用提示词工程、提取增强生成、模型微调和持续模型预训练等方法，对模型进行进一步的适配和调优。

目前商业和开源大语言模型在快速迭代更新，推动着生成式 AI 的高速发展。大模型的明智选择要对诸多因素进行综合考量：1. 参数数量、训练数据集和输入输出窗口的大小，2. 基准测试成绩、准确度、和处理速度等指标，3. 多模态、多语言、多功能支持，灵活性和可扩展性；4. 可调性、透明度、安全性、可控性和编程能力， 5. 对资源的需求，训练、推理、维护的成本等因素。

3. 为生成式AI的部署准备好数据

在当今数字化的时代，数据是企业的核心资产和差异化点。许多人把数据看作是企业的石油和能源，而我更喜欢将数据看作是企业肌体的血液，而数据流就是企业的血液流。驱动生成式AI的发展的动力包含计算、数据、模型和算法等主要方面，而数据是决定大模型质量的最关键因素。如果把企业人工智能应用看做一座漂浮在水面的冰山一角，那么用户可见的企业智能应用就是冰山浮在水面之上的冰面，而数据则是隐藏于水面之下的巨大的冰块主体。

最近T. Davenport等人针对首席数据官的调研证实93%的CDO赞同数据战略是从生成式AI获取价值的关键要素，但57%的CDO认为他们还没有做好有关的数据战略准备。企业要力争把数据变成差异化的动力，这不仅需要掌握从数据确定、采集、清洗、注释、管控等相关的技术，更需要企业把数据当作产品，并建立数据赋能的企业文化，对数据进行安全、隐私、合规的全生命周期的管理。当企业数据、模型、应用三位一体的数据飞轮旋转起来，企业的生成式AI就能源源不断地为企业获取洞察力，创造业务价值。

4. 选择合适的生成式AI服务工具

企业借助于生成式AI技术和业界领先的基础模型快速创新，离不开选择和使用生成式AI的服务和工具。快速选择合适的、通用的、便捷的、安全的AI工具是个不容忽视的关键。为此亚马逊云科技推出了一系列AI工具和服务帮助客户方便、安全、敏捷的构建AI应用。这里为大家概介绍一下其中的一些重要的服务。1. Amazon SageMaker通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习模型。 2. Amazon Bedrock通过API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等领先的高性能基础模型，提供通过安全、隐私和负责任的AI构建生成式AI应用程序所需的各类广泛功能。 3. Amazon Q 是一组生成式人工智能助手，可以根据企业系统中的数据和信息回答问题、提供摘要、生成内容并安全地完成任务，以提升员工的创造力、工作效率和生产力。

5. 机器学习的基础设施和运维管理(MLOps)

云计算提供全面、安全、高性价比的机器学习基础设施，可满足您的AI/ML所有训练和推理的数据存储和计算能力上的需求。识别和选择正确的计算基础设施对于最大化性能、降低成本、减少高能耗以及避免复杂性至关重要。亚马逊云科技在计算、网络和存储等领域针对人工智能和机AI/ML功能进行广泛和深入的构建，包括使用合作伙伴的专用芯片并研发了两款用于训练和推理的自有芯片AWS Trainium 和 AWS Inferentia。

机器学习运维（MLOps）是用于简化和自动化机器学习工作流程和部署运维的文化和实践，覆盖模型和应用的开发、运维、管理等全生命周期。MLOps 是业务人员、人工智能专家和IT运维人员协作的交互流程和管理方法，覆盖了从数据收集、分析、转换、准备，到模型训练、开发、验证、发布、服务、监控，到应用编排、测试、评估、诊断、业务指标管理，等机器学习开发运维的各个关键阶段。MLOps与传统的DevOps类似，强调持续测试（CT）、集成（CI）、和部署（CD），但更具有实验性和复杂性、加强了实验跟踪、模型管理和对业务目标治理等元素。

智能之旅是我们这一代信息工作者的的使命，为我们提供了巨大的机会和艰巨的挑战。完成这个任务要求IT专业人员全面了解人工智能机器学习的技术堆栈，了解声称是AI发展的趋势，如何选用、调整、定制大模型，做好数据准备，快速引进及时掌握所需的生成式AI的工具，建立机器学习的基础设施和机器学习运维的流程管理的实践，成规模的部署实施人工智能应用，以帮助企业利用AI技术构建可持续的竞争力。

*(https://d1.awsstatic.com/psc-digital/2023/gc-600/cdo-agenda-2024/cdo-agenda-2024.pdf)

本文作者：张侠博士