产品经理的AI基础：浅谈大模型的局限性（上）

作者：人人都是产品经理发布时间：2024-09-11

本文深入探讨了这些挑战，并提出了实际的策略和考虑因素，帮助产品经理在设计和优化AI产品时做出明智的决策。通过案例分析和技术策略，我们探索如何在保障性能的同时控制成本，以及如何避免或最小化AI模型中的“幻觉”问题。

在大模型产品化的过程中，AI产品经理需要探索大模型的边界。其中包含大模型本身无法被解决的能力边界、工程化过程中的限制、以及将来随着模型迭代逐渐可能被解决的问题。

本文将先探讨第一部分，关于大模型可能存在的无法解决的问题。

大模型虽然在处理复杂任务时表现出色，但它们的能力并非无限。例如，大模型可能在理解因果关系、进行逻辑推理或者处理特定类型的数据时存在局限。这些限制可能源于模型的训练数据、算法设计或者计算资源的限制。

一、成本和性能的平衡，性价比是长期话题

在AI大模型产品化过程中，平衡成本、性能和响应速度是至关重要的。想要追求性能越强的大模型，就越需要越高的计算成本。性能越好的大模型，需要的计算金钱成本越高，同时计算成本越高，响应速度会随之下降。

例如，百度文库是国内早期接入生成式AI能力，并将其应用到全流程内容创作的AI产品。通过智能贯穿从搜集材料到制造亮点等多个创作场景，百度文库AI新功能上线至今，累计AI用户数已超1.4亿，累计AI新功能使用次数超15亿。在平衡成本、性能和响应速度方面，百度文库通过优化算法和模型结构，提高了模型的运行效率，降低了对计算资源的需求。这使得百度文库能够在保持高性能的同时，有效控制成本，并提供快速响应的服务。此外，百度文库还通过持续的功能迭代和优化，不断提升用户体验，满足不同用户群体的需求。

再例如，苹果公司在AI大模型产品化过程中的设计（Apple Intelligence 的架构图，其中在端上有两个模型，而在云端还有一个基于隐私云计算的大模型）选择反映了其对性能、成本和响应速度的综合考量。苹果的策略主要集中在以下几个方面：

1. 端侧模型的优化

苹果开发了约30亿参数的端侧模型，这些模型在设备上运行，能够处理针对性任务，同时保持较高的测试得分，甚至优于一些参数量更大的开源模型。这种设计有助于保护用户隐私，因为数据在本地处理，不上传到云端，同时也减少了对网络的依赖，提高了响应速度。

2. 云端模型的辅助

除了端侧模型，苹果还构建了基于苹果芯片服务器的云端模型，以处理更复杂的任务。这种云端模型可以提供更强大的计算能力，但苹果通过私有云计算和端到端加密技术来确保数据处理的安全性。

3. 性能与成本的平衡

苹果通过技术创新，如模型压缩和优化算法，来控制模型的大小和计算需求，从而在不牺牲性能的前提下降低成本。这种方法允许苹果在保持设备续航和效率的同时，提供强大的AI功能。

4. 用户体验的重视

苹果的产品设计始终以用户体验为中心。在AI大模型的应用上，苹果注重将AI功能无缝集成到其操作系统中，使用户无需深入了解底层技术即可享受AI带来的便利。

5. 合作伙伴的引入

苹果也与OpenAI等第三方合作，将ChatGPT等大模型集成到苹果的生态系统中，为用户提供更多样化的AI服务。这种合作模式既补充了苹果自身的技术能力，也为用户提供了更多的选择。

6. 隐私保护的强调

在所有AI功能的设计中，苹果都强调隐私保护的重要性。无论是端侧模型还是云端模型，苹果都采取了严格的数据保护措施，确保用户数据的安全和私密性。

通过这些策略，苹果能够在保持高性能的同时，有效控制成本，并提供快速响应的服务，从而在AI大模型的产品化过程中实现最佳性价比。

二、上下文窗口大小和模型不稳定性问题 1. 什么是上下文窗口大小

上下文窗口大小指的是AI大模型在一次交互中能够处理的最大字符数或令牌数。这就像一个人在对话中能够记住的信息量，如果信息量过大，就像人会忘记之前的对话内容一样，AI 也可能忘记或混淆信息。

2. 什么是不稳定性

不稳定性指的是我们平时所说的“幻觉”问题，当AI模型在处理信息时，可能会出现“幻觉”，即生成与之前对话不相关或完全错误的内容。这通常发生在模型无法有效处理或记住所有相关信息时。

3. 为什么上下文窗口与不稳定性是一个长期问题

互斥性：根据英伟达的研究，上下文窗口的大小和模型的稳定性在很大程度上是互斥的，即增加窗口大小可能会降低模型的稳定性。
业务场景差异：不同的业务场景对上下文窗口的需求不同，因此模型的表现也会有所不同。产品经理需要根据具体场景调整模型的使用。
技术挑战：目前还没有模型能够在保持巨大窗口的同时解决幻觉问题，这是一个长期存在的技术挑战。

三、在这类可能无法被解决的问题中，产品经理能做什么 1. 如何平衡成本和性能

产品经理需要收集和分析用户如何与产品交互，他们提出了哪些问题，以及他们期望得到什么样的答案，根据问题的复杂性、对隐私的需求、对响应速度和准确性的要求，产品经理需要对这些问题进行分类。例如，一些简单、私密性要求不高的问题可能适合用小模型处理，而复杂、需要高度准确性的问题则可能需要大模型。

此外，产品经理需要与研发团队合作，设计基准测试来确定何时使用小模型、何时使用大模型。这可能涉及到性能测试、成本效益分析和用户体验评估。

产品推出后，产品经理需要持续收集用户反馈和使用数据，以便不断优化模型的性能和用户体验。这可能包括调整模型的大小、改进算法或更新数据集。哪些可以在本地解决哪些需要联网解决，这是产品经理值得思考的问题。

那么，有什么在保证AI大模型性能的同时，有效控制成本，并提供快速响应，实现最佳的性价比的策略呢？

模型优化：通过模型剪枝、量化和知识蒸馏等技术减少模型大小和计算需求，从而降低成本并提高响应速度。例如，剪枝可以移除不重要的连接或神经元，量化可以将模型参数转换为低精度整数，而知识蒸馏则通过让大模型指导小模型学习来实现知识的传递和压缩。
分布式训练与并行计算：利用多台计算设备的算力资源，加速模型的训练过程。通过将训练数据分割成多个小块，在不同的计算节点上进行训练，并定时进行参数同步和梯度更新，可以显著提高训练效率。
云计算与边缘计算的协同应用：云计算平台提供了强大的计算能力和丰富的数据存储资源，而边缘计算则能够将计算任务下沉到终端设备或网络边缘节点上执行，减少数据传输延迟和带宽消耗。通过合理规划和调度这两种计算资源的使用，可以实现计算资源的优化配置和高效利用。
硬件选择：选择合适的硬件架构，如利用GPU集群或TPU来加速训练过程，可以显著提高性能同时减少训练时间。同时，考虑使用成本效益更高的硬件，如某些情况下CPU可能比GPU更经济高效。
模型缓存：使用模型缓存减少模型编译时间，这可以显著减少程序启动时的延迟。例如，OpenVINO™工具套件提供了模型缓存功能，它可以在编译模型网络之后，自动导出已编译好的模型，加快推理程序启动的响应速度。
成本计算：了解模型的算力成本，包括预训练成本和推理成本，可以帮助做出更明智的决策。预训练成本与模型参数量和训练数据的token量成正比，而推理成本则与模型参数量和每次推理的token消耗量有关。
选择合适的模型：不是所有场景都需要最大的模型。根据应用需求选择合适规模的模型，可以在满足性能要求的同时，有效控制成本。
性能监控与优化：持续监控模型的性能，及时优化算法和硬件资源配置，以确保成本效率和响应速度。

2. 如何尽可能避免幻觉

文本分段：产品经理可以研究如何将长文本合理分段，以便AI模型能够更有效地处理信息，同时保持对话的连贯性。
外挂记忆库：考虑为AI模型外挂记忆库，比如数据库或知识图谱，以便存储和检索长期记忆，增强模型的记忆力。
选择适合的方法：根据业务场景选择合适的长期记忆保持方法。例如，可以参考《多轮对话中让AI保持长期记忆的8种优化方式》中提到的方法。

产品经理在AI大模型的产品化过程中，需要与技术团队紧密合作，通过用户研究、场景分析和技术创新，来解决上下文窗口大小和模型不稳定性的问题。这可能包括选择合适的模型、设计有效的用户交互流程、以及利用外挂记忆库等策略，以提供更好的用户体验。同时，产品经理也需要关注技术发展的最新动态，以便及时调整产品策略。

本文由 @wanee 原创发布于人人都是产品经理，未经许可，禁止转载

题图来自Unsplash，基于 CC0 协议