随着 AI 技术的迅猛发展,最新的大型语言模型,Mixtral 8x22B 和 WizardLM-2 8x22B,已接近或超越 GPT-3.5-Turbo 和 GPT-4模型,并逼近 GPT-4-Turbo 模型的性能。这两款模型都由社区推动和开源共享,标志着LLM的一个新里程碑。
Mixtral 通过引入滑动窗口注意力机制和稀疏混合专家(SMoE)技术,显著提高了推理效率并降低了内存成本。
滑动窗口注意力机制 (Sliding Window Attention)
降至,其中是预测文本的长度, 是窗口长度。这种设计不仅降低了操作数,而且通过多层注意力的累积效应,实现了对长序列上下文的有效管理。
分组查询注意力 (Grouped-Query Attention, GQA)
此技术通过将查询(Query)分组,并为每组分配共享的键(Key)和值(Value)头部,减少了模型参数量和存储需求。通过组内原始注意力头的平均池化来构建这些键和值头部,不仅降低了参数数量,也提高了处理的速度和效率。
缓冲区缓存策略 (Rolling Buffer Cache)
为了更高效地管理内存和加快推理速度,Mixtral实施了滚动缓存策略。此策略通过固定缓存大小,用模运算策略存储过去的键值对,从而实现高效的缓存更新。
预填充与分块处理 (Pre-fill and Chunking)
在生成序列时,如果输入提示词较长,则将其分块(每块大小等于窗口大小),并预先填充每块到(k, v)缓存中。这允许模型在处理每个输入块时,同时考虑当前块与缓存中的块,从而提高了推理的连贯性和速度。
稀疏混合专家系统 (Sparse Mixture of Experts, SMoE)
Mixtral 采用了稀疏混合专家(Sparse Mixture of Experts, SMoE)技术,这是一种先进的神经网络架构,通过动态激活只有一部分专家(Experts)网络来处理每个输入token(token),从而实现更高效的计算。在这种配置下,每个前馈层(通常是Transformer网络中的一部分)被转换为一个MoE前馈网络。这样,每个token不是简单地通过一个固定的网络层处理,而是由一个选择的“专家”网络处理,这些专家根据token的特定需要被动态选中。
在实际应用中,可以将MoE技术应用于每个Transformer块中的每个token,或者可以选择性地在某些层中使用MoE块来优化效率和效果。这样的层级选择允许模型在不牺牲预测性能的情况下大幅降低资源消耗。
门控函数: 门控机制决定哪个或哪些专家将对每个输入token进行处理。这一过程基于输入token的属性动态进行,以确保最相关的专家被激活。
MoE前馈层: 传统的前馈网络在这里被替换为一个包含多个专家的MoE层。每个专家都是一个小型前馈网络,专门针对处理某种类型的信息。
专家的选择和合成: 每个token通过门控函数选定一个或多个最合适的专家,这些专家并行处理输入数据。然后,他们的输出被聚合成单一的输出结果,继续传递到下一个网络层。
隔层使用: 为了平衡效率和复杂度,MoE块可以选择性地部署在Transformer的不同层中。例如,可以在每隔一层的Transformer块中使用MoE技术,其余层则使用标准的前馈网络。
WizardLM-2 利用人工智能生成的数据和逐步由AI监督的方法,来训练和完善模型。WizardLM-2 的部分模型基于Mixtral的模型进行训练,此处不对其模型架构进行展开讨论。
人工智能驱动的合成训练系统
WizardLM-2采用了全AI驱动的合成训练系统,该系统专为优化和增强语言模型的学习过程设计。以下是其主要技术环节的详细介绍:
数据预处理
数据分析:利用专门的分析管道来评估新源数据的不同属性分布,这有助于对数据进行初步理解和处理。
加权抽样:由于最优训练数据的分布通常与自然人类对话语料的分布不一致,我们根据实验经验调整训练数据中各属性的权重,以确保数据的代表性和有效性。
渐进式学习
数据分区与阶段训练:与传统的一次性使用所有数据的做法不同,我们采用将数据分区并分阶段训练的方法。这种策略能够在使用较少数据的情况下获得更好的学习成果。
Evol Lab:在每个训练阶段,我们首先将数据片段送入Evol Lab,生成多样化和复杂的指令-响应对。
Evol-Instruct:通过自动化生成高质量指令,不断优化和调整指令生成的过程。
Evol-Answer:指导模型多次生成和重写回答,以提升逻辑性、正确性和亲和力。
AI对AI的对齐(AAA)
共教学(Co-Teaching):集结WizardLM系列及其他领先的开源和专有模型,让它们通过模拟对话、质量评估、改进建议等方式相互教学和提升。
自我教学(Self-Teaching):WizardLM能够通过活跃学习自身生成新的进化训练数据和偏好数据,用于监督学习和强化学习。
学习策略
监督学习:通过详细的监督,确保模型输出的质量和一致性。
分阶段偏好数据优化(Stage-DPO):为了更有效地进行离线强化学习,我们将偏好数据分割成不同的片段,并分阶段改进模型。
强化学习指令质量奖励(RLEIF):
指令质量奖励模型(IRM):通过奖励高质量指令的生成,促进模型输出的精确性。
过程监督奖励模型(PRM):通过对整个学习过程的监督和奖励,实现在线强化学习中的精确校正。
Mixtral 的性能通过多个基准测试进行了评估,显示出其在多任务处理、推理能力和多语言支持方面的优越性。
WizardLM-2 在MT-Bench中的表现与最先进的模型GPT-4-Turbo相媲美。
Cheaper, Better, Faster, Stronger
Mixtral of experts
Mistral 7B
GitHub - nlpxucan/WizardLM: LLMs build upon Evol Insturct: WizardLM, WizardCoder, WizardMath
大模型理论基础