ZeRO：从优化器状态到残差状态的显存优化

关联阅读：ZeRO 作为数据并行训练中的显存优化

1. 训练显存的组成

训练一个参数量为 $\Psi$ 的模型，全精度 Adam 优化器（FP16 混合精度）下，显存占用主要来自：

还有两类常被忽视的显存来源：

ZeRO [1] 分两个阶段针对这两类来源做优化。

ZeRO-DP 的核心思路是：在数据并行（DP）的 $N_d$ 张卡中，不必每张卡都持有完整的参数、梯度和优化器状态，可以把这些东西切分存储。

阶段	切分内容	每卡显存（理论）	通信开销
ZeRO-1	优化器状态	$16/N_d + 2$ B/param	= Baseline
ZeRO-2	优化器状态 + 梯度	$16/N_d$ B/param	= Baseline
ZeRO-3	优化器状态 + 梯度 + 参数	$16/N_d$ B/param	1.5× Baseline

三阶段逐步扩大切分范围，ZeRO-3 的极端情况下每张卡只需存 $1/N_d$ 的参数，$N_d = 64$ 时单卡参数显存缩小 64 倍。

通信开销方面，ZeRO-3 前向时需要 AllGather 参数（每层用完即丢），反向时 ReduceScatter 梯度，总通信量约为标准 AllReduce 的 1.5 倍——这是获得极致显存节省的代价。

ZeRO-R（ZeRO Residual State Memory Reduction）针对的是 ZeRO-DP 没有处理的残差显存（Residual States）：激活值、临时缓冲区、碎片化显存。

问题：标准 ZeRO-DP 下，每张 DP 卡虽然数据不同，但前向传播的激活值与数据大小成正比，并不因为模型被分片而减少。

解法：将每层的激活值也按 DP 维度切分（Partitioned Activation，Pa），每张卡只存 $1/N_d$ 的激活。在反向传播需要时，通过 AllGather 重新拼出完整激活。

开销：AllGather 激活的通信量与激活大小成正比，对长序列代价较高，因此 Pa 往往与 Checkpoint（不存激活，重计算）结合使用（Pa+cpu 或 Pa+checkpoint）。

激活内存对比（单层，batch=1，seq=2048，hidden=4096）：
- 不切分：2048 × 4096 × 2 bytes ≈ 16 MB
- Pa，N_d=8：16 MB / 8 = 2 MB（+ AllGather 开销）

更激进的版本：将激活直接卸载到 CPU 内存，需要时通过 PCIe 读回。对于长序列 / 大 batch 训练中激活占大头的场景，CPU 内存远比 HBM 便宜，但 PCIe 带宽（~16 GB/s）会成为新的瓶颈。

问题：AllReduce / AllGather 等通信操作需要临时工作空间（workspace buffer）。如果允许其随通信量动态增长，在大模型 / 大 DP 规模下，这些 buffer 可能突然申请大块显存，触发 OOM 或显存碎片化。

解法：预先设置一个固定大小的通信 buffer（CB），通信数据量超过阈值时分批（chunked）进行，保证 buffer 占用恒定。

# DeepSpeed 中配置固定 buffer
"communication_data_type": "fp16",
"allgather_bucket_size": 200000000,   # ~200MB
"reduce_bucket_size": 200000000

问题：训练过程中频繁申请和释放激活、梯度、临时张量，会导致显存碎片化——理论上有 N GB 空闲，但申请连续的 N GB 会失败（类似 malloc 的碎片化问题）。

解法：在训练开始前，根据运行时的张量生命周期，预先分配一块连续的显存池（Memory Defragmentation）。张量的申请和释放在这个池内管理，避免系统 allocator 产生碎片。

ZeRO-Infinity [2] 把卸载目标从 CPU 扩展到 NVMe SSD：

GPU HBM → CPU DRAM → NVMe SSD
       ↑ 越来越慢，越来越便宜

通过带宽感知的数据流（bandwidth-centric partitioning），在 NVMe 顺序读写带宽（~3-7 GB/s）的约束下，仍能维持合理的训练吞吐。DeepSpeed ZeRO-Infinity 允许在单机上训练 trillion 参数量级的模型（代价是速度极慢）。

以 7.5B 参数模型、64 个 GPU 为例（来自 ZeRO 论文）：

[1] Rajbhandari, S., et al. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. SC 2020. arxiv:1910.02054

[2] Rajbhandari, S., et al. ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning. SC 2021. arxiv:2104.07857