AI大模型专题：网络大模型十大问题白皮书（附下载）

作者：烟树晚雁发布时间：2024-03-07

今天分享的是AI系列深度研究报告：《AI大模型专题：网络大模型十大问题白皮书》。

（报告出品方：6GANA）

报告共计：21页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

网络大模型的定义

大模型将在运维、执行、验证等方面为移动网络服务。通过整合通信知识，大模型可以帮助检测故障和生成解决方案。随着网络服务的多样性和复杂性，大模型可以用来编排和调度任务流程，还可以进行性能优化、环境预测、资源分配等。通过出色的生成能力，大型模型有望在验证阶段发挥重要作用，如室外复杂环境的通道生成、高铁场景模拟等。因此，我们将无线通信网络中使用的大模型定义为网络大模型（NetGPT）。

由于无线通信网络包含 RAN/CN/OAM 这些不同的技术域，他们在功能特性、数据结构、以及性能需求上都有着明显的区别。例如，应用在运维领域的模型可能与 NLP 领域 LLM 类似，可以直接对 LLM 进行微调得到；而应用于空口的模型与自然语言完全是另一套体系。因此， NetGPT 并不是一个单一模型通配所有网络场景，而是一系列模型的组合。需要注意的是，这种5 组合并不是简单的将孤立的模型摆放在一起。我们为 NetGPT 建立了三层模型，即 L0，L1 和 L2。其中，L0 代表全网通用大模型；L1 代表网络不同领域大模型，如 RAN/CN/OAM 域大模型；L2 代表特定场景下的网络模型，如信道预测或者负载均衡等，如图 1 所示。

NetGPT 在通用性、基础性和规模上，都是传统各网元各自训练出的特定场景模型所不能相比的。通用性上，NetGPT-L0 要能在全网各领域通用，包含是电信领域的基础知识，NetGPT- L1 的通用性就差一些，局限在对应的领域内；基础性指的是能够通过 few-shot 甚至 zero-shot 就很好的适配到下游任务上，这一点 NetGPT-L0/1 都要具备，特别是 L1，要能够作为 NetGPT- L2 的基础模型，通过各种策略来快速适配到新的场景中去，不再需要从头开始训练 L2。而在模型规模上，NetGPT-L0/1 的参数量要满足大模型的基准门限，目前业界普遍的看法是，产生智能涌现的最少参数量在 70 亿。NetGPT-L2 的参数量可以小很多，方便其部署在网络边缘和端侧。

十大基础问题

尽管大模型，尤其是 LLM，已经在很多领域展现出了令人惊叹的能力，网络大模型仍然还有很多基础问题需要去研究和解决。这些问题可以分为两类，一类是大模型本身的设计类问题，另一类是网络设计如何支撑大模型应用类问题，如图 3- 1 所示。也就是说，我们让 NetGPT 既要造的出，也要用得好。

NETGPT 场景和需求问题

网络技术研究，以需求和场景始。研究 NetGPT 的需求和典型场景是网络大模型制定发展策略、规划和优化的基础，并对网络长期规划、技术升级和演进决策具有重要意义。只有具备高增益的典型场景、高价值的典型业务，才能为 NetGPT 后续的落地和部署提供必要保障，否则只能是停留在纸面的空中楼阁。因此，NetGPT 的需求是否真实存在，需求程度如何，需要通过研究过程逐步去伪存真，为后续的网络设计和 NetGPT 发展提供必要依据。另外，在 NetGPT 需求和场景研究中，需要结合对未来技术趋势的分析，需求和场景研究可以一定程度适度超前当前科技水平。

单从 IT 视角进而 CT 视角看 GPT 技术，从 IT 视角看，GPT 既是一种 AI 大模型，也是超级 AI 大应用；从 CT 视角看，GPT 既可以是一种辅助工作的赋能手段，也可是一种创新设计新范式。而就 6G 网络发展而言，从“需求搜集”到“系统设计“，再到”规范标准“，“研发测试”， “规划，建设，运维，管理，优化，营销”等全生命周期的各个环节，GPT 类技术都可以在其中发挥重要作用，而从一开始最具价值的毫无疑问是 GPT 赋能网络，即 NetGPT。而无线网络边缘单设备/终端相对于云较为受限的计算能力，决定了 NetGPT 并不能像传统 AI 那样对网络中的功能和算法进行简单替换，而需要重新设计，包括适配无线网络的 NetGPT 算法，以及原生支持 NetLM 应用的无线网络架构。

NETGPT 的极致性能要求问题

通过使用深度学习、强化学习等先进的人工智能技术，大模型可以从大量移动网络数据中提取有用信息，并实现智能化的决策和控制，广泛应用于移动网络的信号处理、传输控制、无线资源分配、干扰管理等多个方面，为智能物联网、智慧医疗、智能交通等领域提供有力支撑。为了实现这些应用，模型必须实时高效，能够快速处理输入并进行决策；模型必须准确可靠，尽量避免错误决策造成的网络问题；模型必须稳定可用，保障网络运行和服务质量不受模型故障影响；模型必须具有可扩展性，能够适应不同场景和不同用户的需求。

（1）NetGPT 的实时性要求。无线通信网络的应用场景常常涉及到各种实时任务，如自动驾驶、远程医疗、智能制造等。这些场景对网络的实时性要求极高，即使微小的延迟也可能导致严重的后果。这就需要大模型参与到网络业务的处理时，能够在极短的时间内进行决策和执行，以应对快速变化的网络环境。例如基站上的资源调度的时间粒度是 0.5~1ms。然而大模型的复杂计算过程和大规模参数会带来推理的延迟，很难直接应用到网络的底层逻辑上。我们需要为 NetGPT 开发高效的模型推理和执行方法，甚至在模型架构上进行重新设计和简化，从而提升其推理效率。进一步地，可以通过采用高效的硬件加速、进行软件的加速优化、压缩优化模型算法和模型结构等方法来形成芯片、框架、系统的整体优化。此外，在移动网络中，数据是不断更新的，可以利用增量学习和更新方法，只对更新的数据进行训练和调整，以减少计算量和时间成本。

（2）NetGPT 的可靠性要求。移动网络中医疗诊断、金融风控等应用对网络的可靠性要求很高，任何通信问题都可能引发重大的安全事件。然而大模型依然没有突破神经网络 AI 的可解释问题，其在推理中可能发生的幻觉现象容易导致不准确甚至误导性的输出，就有可能为网络产生错误的决策，从而引发网络事故。所以目前的大模型应用仍然局限在外围辅助，无法触及核心系统。虽然大模型的幻觉问题还不能立刻解决，但是我们仍然可以从提高数据质量、改善模型结构、引入领域知识、加强防御措施等方面尽可能地降低这类风险。

（3）NetGPT 的高可用性要求。无线传输的环境复杂，存在各种不确定性和干扰，例如信号衰减、噪声干扰、多径效应等。同时，由于硬件规模和通信量规模庞大，大模型训练甚至推理过程中难免遇到硬件故障或软件问题。大模型需要具备高可用性，在各种干扰或故障下保持较高的可用性，以避免由于推理中断造成网络通信的低效或故障。一方面，需要考虑如何从数据备份、模型模块化、异常处理和分布式部署等方面提升大模型容错率，保障大模型不会因单一故障瘫痪；另一方面，也需要大模型利用数据冗余、快速恢复机制等方式提供一定的容灾性，保证灾难发生后大模型能快速恢复，提供可用和稳定的网络服务。

（4）NetGPT 的灵活性扩展性要求。当前移动网络用户业务呈现出多样化的特点。未来，传感器网络、智能物联网等应用促进网络规模不断扩大，新型业务也不断涌现。大模型需要能够适应多种移动网络环境和业务需求，并进行灵活配置和调整。大模型应该具备在计算、存储、通信等方面进行扩展的能力，以根据移动网络的需求进行扩展，处理更多的用户、更复杂的业务场景以及更高的数据流量等。同时，由于移动网络设备和协议多种多样，不同的设备和协议具有不同的特性和要求。大模型需要能够针对不同的网络协议、设备类型和网络制式进行自适应调整，以便为不同的设备和应用场景提供一致的服务。目前，增强模型灵活性的技术包括模型压缩、模型迁移等。

报告共计：21页

海量/完整电子版/报告下载方式：公众号《人工智能学派》