MODEL-ZOO

专家混合模型 (MoE)快速指南

专家混合 (MoE) 已成为一种流行的提高 LLM 效率的架构组件。在这篇博文中，我们将探讨研究人员在实现专家完美混合的道路上所采取的步骤。

admin

Dec 30, 2024 • 10 min read

专家混合 (MoE) 已成为一种流行的提高 LLM 效率的架构组件。在这篇博文中，我们将探讨研究人员在实现专家完美混合的道路上所采取的步骤。

MoE 已用于 Mixtral、DeepSeek-V2、Qwen2–57B-A14B 和 Jamba 等模型。但是，与任何架构组件一样，它具有超参数（专家总数、活跃专家数量、粒度），这些超参数会影响最终模型质量。

1、MoE 简介

在 GPU 和数据密集型 LLM 的世界中，在各种宝贵资源之间找到平衡非常重要。例如，如果我们希望 LLM 在各种任务中表现出色，可以通过增加参数数量来实现，这反过来会使推理（以及训练）更耗费计算资源。

MoE 的出现是为了创建一个规模大、能力强但在推理阶段要求稍低的 LLM。 MoE 建议拥有多个（例如 8 个）独立版本的前馈块 (FFN) — “专家” — 以及一个路由器，该路由器决定针对每个特定 token 使用哪个（例如 2 个）专家。

你可能会问，“为什么只使用 FFN，而不使用自注意力？”自注意力太复杂了，FFN 块通常包含所有 LLM 参数的一半以上。

第一个具有 MoE 的 LLM 是 Mixtral-8×7B（读作“具有 7B 基础模型的 8 个专家”），它是通过生成 Mistral 的每个 FFN 块的 8 个副本并添加为每个 token 选择 2 个专家的路由机制从 Mistral-7B 创建的。与 Mistral 的 7B 参数相比，它：

拥有 47B 参数，在创建时能够与 70B 模型相媲美，但
仅使用 13B 活动参数，使其比类似大小的同类模型更高效。

Mixtral 计算的专家权重如下：

最终输出等于：

请注意 𝐻(𝑥)ᵢ 中的随机加数，它可作为训练稳定性的正则化器。

这仅在路由器平衡时才有效，这意味着它不会偏袒或忽视某些专家。否则，效率可能会受到阻碍而不是提高。特殊的“技巧”，包括辅助平衡损失函数，用于保持一切正常运行。此外，考虑到当前 token 的路由器分配，Mixtral 的 MoE 机制会尝试将传入的批次划分为几乎相等的部分，而开销不会大于预设的容量因子（通常约为 1-1.25）：

token 路由动态图。来源：Google 的 Switch Transformers

每个专家处理由容量因子调制的固定批量大小的 token。每个 token 都会路由到具有最高路由器概率的专家，但每个专家的批量大小固定为（总 token 数/专家数）×容量因子。如果 token 分配不均，则某些专家会溢出（用红色虚线表示），导致这些 token 不会被该层处理。更大的容量因子可以缓解此溢出问题，但也会增加计算和通信成本（用填充的白色/空槽表示）。

查看上面提到的 Hugging Face 帖子了解更多详情。

注意：MoE LLM 也称为稀疏模型，而非 MoE 模型则称为密集模型。

2、我们需要更多专家

Mixtral 只有 8 位专家，但后来的模型走得更远。

例如，DeepSeek-V2 有 2 位共享专家和 160 位路由专家，其中每个 token 选择 6 位。在总共 236B 个参数的情况下，每个 token 只激活了 21B 个。共享专家总是被调用；据说它们可以捕获不同上下文中的共同知识。路由专家很多，其中一些专家非常专业。

最近的几篇论文研究了具有越来越多专家的 MoE LLM 的行为，有充分的理由相信拥有许多专家是有益的。我将提到两篇研究相关经验规模定律的论文：

路由语言模型的规模定律（Scaling Law）本文表明，随着专家数量的增加，验证损失趋于改善：

作者还研究了有效参数数量。例如，如果假设的 Mistral-cB 能够提供与 Mixtral 相同的质量，则 cB（c 十亿）是 Mixtral-8×7B 的有效参数数量。研究人员发现，随着基础模型规模的增加，有效参数数量的增益会减少：如果 Mistral 有 1T 个参数而不是 7B 个参数，那么用它创建 Mixtral-8×1T 不会提高质量（同一篇论文）：