主页

Scaling Laws:从幂律到 Chinchilla(以及训练配方)

旧方法:在大模型上直接调参(极度昂贵且缓慢)。 新方法(Scaling Laws):在小模型上调参,总结规律,然后外推(extrapolate)到大模型。 1. Scaling law 是什么:为什么 log-log 上是一条直线? 幂律(Power law)的核心形式: \[\text{Loss} \approx A \cdot x^{-\alpha} + \text{(常数/下界)}\] 为简洁起见,本文把测试集上的 loss / error(如 test loss、generalization error)统称为 “Loss/误差”,不区分具体任务指标的常数差异。 在双对数坐标系中: \[\log(\text{Loss}) \approx -\alpha \log(x...

阅读更多

大模型并行的数学推导

1. 为什么必须并行:瓶颈来自两类量 1.1 计算限制(Compute bound) 单卡算力有限;更关键的是训练吞吐不仅看 FLOPs,还看通信能否被掩盖(overlap)以及并行策略的同步频率(每层同步 vs 每步同步)。 1.2 显存限制(Memory bound) 显存消耗大体分三块: 1) 模型状态(model states):参数、梯度、优化器状态。 2) 激活(activations):为了反向传播需要保留的中间张量。 3) 临时张量/缓存(workspace / buffers):GEMM、通信 buffer、KV cache(推理/长上下文训练更明显)。 很多只看 1),但长序列/深层模型的 2) 往往更致命:哪怕 ZeRO-3 把模型状态切到很省,激活仍可能...

阅读更多

Megatron Float16Module 的参数传法

Megatron 的 Float16Module 只会把位置参数转换成半精度(bf16/fp16)。一旦只用关键字参数,输入会保持原 dtype,导致前向混用 fp32/bf16。 1 相关代码 代码位置:megatron/core/transformer/module.py#L404 https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/transformer/module.py#L404 def forward(self, *inputs, fp32_output=True, **kwargs): if parallel_state.is_pipeline_first_stage(i...

阅读更多

ApexRMSNorm vs TENorm:bf16 大 weight 精度坑

bf16 下使用 ApexRMSNorm,一旦 weight/gamma/scale 放大,输出标准差看似稳定,但均值会随机机漂移;换成 Transformer Engine 的 TENorm 就恢复稳定。 1 RMSNorm RMSNorm 只做均方根归一化,不减均值、也没有 beta 偏置: \[y = \frac{x}{\sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}} \odot \gamma\] d 为 hidden size,γ 逐通道缩放,通常初始化为 1。 由于不减均值,输出是否“居零”高度依赖舍入误差;γ 越大,误差越容易被放大。 2 现象 在 bf16 下把 γ 放大(例如 >3.5,或...

阅读更多

TP 下的激活显存公式

1 每层激活显存的估算式 \[\text{Activations memory per layer} = s b h \left( 10 + \frac{24}{t} + 5 \frac{a s}{h t} \right)\] 这个式子描述了 单层 Transformer 激活显存 与多种变量之间的关系:序列长度 $s$、micro-batch 大小 $b$、隐藏维度 $h$、注意力头数 $a$,以及张量并行度 $t$。当 $s$、$b$、$h$ 任一放大时,整个式子会线性增长;只有分到多张 GPU 的部分会对 $t$ 产生反比关系。 1.1 变量说明 符号 含义 s 序列长度(s...

阅读更多

ZeRO 究竟算数据并行还是模型并行?

Zero(ZeRO, Zero Redundancy Optimizer)总被问:它究竟是数据并行(DP)的技巧,还是模型并行(MP)的变体? 本文把 ZeRO 放回数据并行的语境,解释它如何削减显存冗余、为何仍维持 DP 语义,以及和真正模型并行的根本区别。 1 数据并行的痛点:冗余状态 传统 DP 在每张卡上复制 完整模型: 参数、梯度、优化器状态都各存一份; Backward 结束后 All-Reduce 梯度,保持副本一致。 随着模型变大,显存中堆着 N 份(N=GPU 数)相同状态,浪费巨大。ZeRO 的目标就是保持 DP 训练语义不变,却让这些状态不再 N 份复制。 2 ZeRO 的核心:分区状态而非拆计算 ZeRO 把模型状态切成片,平均分到不同 ...

阅读更多

MoE 实践梳理:并行策略、随机性与 DeepSeek

MoE 三个问题:如何并行、为何随机、怎样稳定 1. MoE 的模型并行 vs 数据并行 MoE 训练通常把“专家”视为模型并行单元,再与数据并行组合。下图直观展示了权重如何在 data parallel、model parallel 与 expert parallel 之间拆分: Model Parallel:同一批 token 被切到不同设备,各自负责部分 FFN/attention 计算;适合巨型专家参数。 Data Parallel:复制一份完整模型,分批处理不同样本;用来堆 throughput。 Expert Parallel:把专家实例平均分发到多卡,token 依据路由结果被 permute 到对应设备。 实战中常出现“三明治”拓扑:DP 包...

阅读更多

注意力头设计

在不牺牲模型质量的前提下,如何从注意力头这一层入手,压缩推理显存、带宽与算力成本 1 绝大多数LLM为何仍守着标准多头 Transformer 诞生至今,最常见的还是经典多头注意力(MHA): \(\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V\) 每个 head 拥有独立的 Q、K、V,与其他 head 并行计算。GPT-3、LLaMA、Qwen 这些主流 LLM 之所以鲜少改动,原因主要有三: 训练可复现:生态里所有框架、算子库都为 MHA 做了极致优化,工程风险最小。 表达力充足:每个 head 面向不同子空间,模型容量不受限制。 推理成本仍可接受...

阅读更多