今天分享的是AI系列深度研究报告:《AI大模型专题:网络大模型十大问题白皮书》。
(报告出品方:6GANA)
报告共计:21页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
大模型将在运维、执行、验证等方面为移动网络服务。通过整合通信知识,大模型可以帮助检测故障和生成解决方案。随着网络服务的多样性和复杂性,大模型可以用来编排和调度任务流程,还可以进行性能优化、环境预测、资源分配等。通过出色的生成能力,大型模型有望在验证阶段发挥重要作用,如室外复杂环境的通道生成、高铁场景模拟等。因此,我们将无线通信网络中使用的大模型定义为网络大模型(NetGPT)。
由于无线通信网络包含 RAN/CN/OAM 这些不同的技术域,他们在功能特性、数据结构、以及性能需求上都有着明显的区别。例如,应用在运维领域的模型可能与 NLP 领域 LLM 类似,可 以直接对 LLM 进行微调得到;而应用于空口的模型与自然语言完全是另一套体系。因此, NetGPT 并不是一个单一模型通配所有网络场景,而是一系列模型的组合。需要注意的是,这种5 组合并不是简单的将孤立的模型摆放在一起。我们为 NetGPT 建立了三层模型,即 L0,L1 和 L2。 其中,L0 代表全网通用大模型;L1 代表网络不同领域大模型,如 RAN/CN/OAM 域大模型;L2 代表特定场景下的网络模型,如信道预测或者负载均衡等,如图 1 所示。
NetGPT 在通用性、基础性和规模上,都是传统各网元各自训练出的特定场景模型所不能相比的。通用性上,NetGPT-L0 要能在全网各领域通用,包含是电信领域的基础知识,NetGPT- L1 的通用性就差一些,局限在对应的领域内;基础性指的是能够通过 few-shot 甚至 zero-shot 就很好的适配到下游任务上,这一点 NetGPT-L0/1 都要具备,特别是 L1,要能够作为 NetGPT- L2 的基础模型,通过各种策略来快速适配到新的场景中去,不再需要从头开始训练 L2。而在模 型规模上,NetGPT-L0/1 的参数量要满足大模型的基准门限,目前业界普遍的看法是,产生智能涌现的最少参数量在 70 亿。NetGPT-L2 的参数量可以小很多,方便其部署在网络边缘和端侧。
尽管大模型,尤其是 LLM,已经在很多领域展现出了令人惊叹的能力,网络大模型仍然还有很多基础问题需要去研究和解决。这些问题可以分为两类,一类是大模型本身的设计类问题,另 一类是网络设计如何支撑大模型应用类问题,如图 3- 1 所示。也就是说,我们让 NetGPT 既要造的出,也要用得好。
网络技术研究,以需求和场景始。研究 NetGPT 的需求和典型场景是网络大模型制定发展策略、规划和优化的基础,并对网络长期规划、技术升级和演进决策具有重要意义。只有具备高增益的典型场景、高价值的典型业务,才能为 NetGPT 后续的落地和部署提供必要保障,否则只能 是停留在纸面的空中楼阁。因此,NetGPT 的需求是否真实存在,需求程度如何,需要通过研究过程逐步去伪存真,为后续的网络设计和 NetGPT 发展提供必要依据。另外,在 NetGPT 需求和 场景研究中,需要结合对未来技术趋势的分析,需求和场景研究可以一定程度适度超前当前科技水平。
单从 IT 视角进而 CT 视角看 GPT 技术,从 IT 视角看,GPT 既是一种 AI 大模型,也是超级 AI 大应用;从 CT 视角看,GPT 既可以是一种辅助工作的赋能手段,也可是一种创新设计新范式。 而就 6G 网络发展而言,从“需求搜集”到“系统设计“,再到”规范标准“,“研发测试”, “规划,建设,运维,管理,优化,营销”等全生命周期的各个环节,GPT 类技术都可以在其中发挥重要作用,而从一开始最具价值的毫无疑问是 GPT 赋能网络,即 NetGPT。而无线网络边缘单设备/终端相对于云较为受限的计算能力,决定了 NetGPT 并不能像传统 AI 那样对网络中的功 能和算法进行简单替换,而需要重新设计,包括适配无线网络的 NetGPT 算法,以及原生支持 NetLM 应用的无线网络架构。
通过使用深度学习、强化学习等先进的人工智能技术,大模型可以从大量移动网络数据中提取有用信息,并实现智能化的决策和控制,广泛应用于移动网络的信号处理、传输控制、无线资源分配、干扰管理等多个方面,为智能物联网、智慧医疗、智能交通等领域提供有力支撑。为了实现这些应用,模型必须实时高效,能够快速处理输入并进行决策;模型必须准确可靠,尽量避免错误决策造成的网络问题;模型必须稳定可用,保障网络运行和服务质量不受模型故障影响; 模型必须具有可扩展性,能够适应不同场景和不同用户的需求。
(1)NetGPT 的实时性要求。无线通信网络的应用场景常常涉及到各种实时任务,如自动驾驶、远程医疗、智能制造等。这些场景对网络的实时性要求极高,即使微小的延迟也可能导致严重的后果。这就需要大模型参与到网络业务的处理时,能够在极短的时间内进行决策和执行, 以应对快速变化的网络环境。例如基站上的资源调度的时间粒度是 0.5~1ms。然而大模型的复杂计算过程和大规模参数会带来推理的延迟,很难直接应用到网络的底层逻辑上。我们需要为 NetGPT 开发高效的模型推理和执行方法,甚至在模型架构上进行重新设计和简化,从而提升其 推理效率。进一步地,可以通过采用高效的硬件加速、进行软件的加速优化、压缩优化模型算法 和模型结构等方法来形成芯片、框架、系统的整体优化。此外,在移动网络中,数据是不断更新 的,可以利用增量学习和更新方法,只对更新的数据进行训练和调整,以减少计算量和时间成本。
(2)NetGPT 的可靠性要求。移动网络中医疗诊断、金融风控等应用对网络的可靠性要求 很高,任何通信问题都可能引发重大的安全事件。然而大模型依然没有突破神经网络 AI 的可解释问题,其在推理中可能发生的幻觉现象容易导致不准确甚至误导性的输出,就有可能为网络产生 错误的决策,从而引发网络事故。所以目前的大模型应用仍然局限在外围辅助,无法触及核心系统。虽然大模型的幻觉问题还不能立刻解决,但是我们仍然可以从提高数据质量、改善模型结构、 引入领域知识、加强防御措施等方面尽可能地降低这类风险。
(3)NetGPT 的高可用性要求。无线传输的环境复杂,存在各种不确定性和干扰,例如信号衰减、噪声干扰、多径效应等。同时,由于硬件规模和通信量规模庞大,大模型训练甚至推理过程中难免遇到硬件故障或软件问题。大模型需要具备高可用性,在各种干扰或故障下保持较高的可用性,以避免由于推理中断造成网络通信的低效或故障。一方面,需要考虑如何从数据备份、 模型模块化、异常处理和分布式部署等方面提升大模型容错率,保障大模型不会因单一故障瘫痪; 另一方面,也需要大模型利用数据冗余、快速恢复机制等方式提供一定的容灾性,保证灾难发生后大模型能快速恢复,提供可用和稳定的网络服务。
(4)NetGPT 的灵活性扩展性要求。当前移动网络用户业务呈现出多样化的特点。未来, 传感器网络、智能物联网等应用促进网络规模不断扩大,新型业务也不断涌现。大模型需要能够适应多种移动网络环境和业务需求,并进行灵活配置和调整。大模型应该具备在计算、存储、通信等方面进行扩展的能力,以根据移动网络的需求进行扩展,处理更多的用户、更复杂的业务场景以及更高的数据流量等。同时,由于移动网络设备和协议多种多样,不同的设备和协议具有不 同的特性和要求。大模型需要能够针对不同的网络协议、设备类型和网络制式进行自适应调整, 以便为不同的设备和应用场景提供一致的服务。目前,增强模型灵活性的技术包括模型压缩、模型迁移等。
报告共计:21页
海量/完整电子版/报告下载方式:公众号《人工智能学派》