Gated Activation 与 ReGLU

1 标准前馈层回顾

Transformer 前馈层（Feed-Forward Layer, FFN）是注意力块外的主要非线性单元，通常由两层线性映射加一次激活构成

\[FF(x) = \text{ReLU}(x W_1) W_2 = \max(0, xW_1) W_2\]

ReLU 固定使用零阈值，所有神经元以同一规则开关，难以针对不同 token 动态调节信息流。

为提升自适应能力，Gated Linear Units（GLU） 及其变体在激活阶段增设门分支，让 FFN 学会对不同特征分配不同“通行证”。

门控的核心替换是：

\[\max(0, xW_1) \rightarrow \max(0, xW_1) \otimes (xV)\]

ReGLU 选择保持主分支的 ReLU 激活，同时使用线性门分支，得到：

\[FF_{\text{ReGLU}}(x) = \left(\max(0, xW_1) \otimes (xV)\right) W_2\]

模型	第一层输出	是否门控	额外参数
标准 FFN	$\max(0, xW_1)$	否	无
ReGLU	$\max(0, xW_1) \otimes (xV)$	是	$V$

不同激活函数对应不同 GLU 变体，常见组合如下：

LLaMA、PaLM、Chinchilla 更偏好 SwiGLU，T5 使用 ReGLU，而 GPT 早期版本仍沿用标准 FFN。