主页 - 薛小嵩blog

本文是《LLM 数据的生产》的下篇，对主流预训练数据集做纵览。上篇讲训练阶段框架、法律与后训练数据，见 llm-data-produce。 4. 预训练数据巡礼（Pretraining）目标：对主流模型的”数据配方”做一次纵览；观察到一个共性：大量工作集中在转换（HTML→文本）、过滤、去重、质量/毒性/PII控制。 4.1 BERT（2019）：BooksCorpus + Wikipedia 论文：https://arxiv.org/pdf/1810.04805 BERT 训练数据由两部分组成： BooksCorpus（书籍） Wikipedia 一个容易忽略但很重要的点：BERT 训练时的序列单位是文...

数据不是凭空出现的，数据管线（收集→转换→过滤→去重→聚合）往往是决定模型能力与差异化的关键。 1. 核心观点：为什么数据最重要？ Hot take：训练语言模型时，最重要的是把数据搞对。一个理由：看公司披露的信息。开源权重模型（例如 Llama 3）在架构、训练流程上可能比较透明，但对训练数据几乎不公开。数据保密的两个主要原因：竞争优势（数据是壁垒）版权风险（数据来源可能涉及侵权）历史对比：基础模型之前：数据工作更多是“重标注”的监督学习。现在：标注减少，但“筛选、清洗、策划、去重”的工作量依然巨大。数据...

0. 主题与结论预告评测要回答的问题很朴素：在模型已经固定的情况下，它到底“好不好”？不存在唯一正确的评测；必须先明确你想测量什么，再选择或设计评测。不要只盯着汇总分数；要回到具体样本与模型预测，理解失败模式。评测维度不止能力，还包括安全、成本、以及与真实使用场景的贴合度。必须把“游戏规则”讲清楚：评的是方法，还是模型/系统（含提示词、工具、RAG、脚手架等）。 1. 分数与“氛围感” 1.1 基准分数图：DeepSeek-R1 基准成绩引用：DeepSeek-R1 论文（PDF）https://arxiv.org/pdf/2501.12948.pdf ...

1. 先把推理过程拆开：Prefill vs Decode 同一个模型，在推理时其实有两个阶段： Prefill（预填充）：把 prompt 一次性喂进去，算出每层的隐藏状态，同时把 K/V 写入 KV Cache。这个阶段对 prompt 的 token 可并行，形态更像训练，通常更接近 compute-bound。 Decode（生成/解码）：自回归逐 token 生成。每一步只处理 “当前 1 个 token”，需要读取（并更新）已有的 KV Cache。这个阶段通常 memory-bound，决定了 tokens/s。 2. 符号约定 2.1 变量的定义为了方便推导，定义变量： B：batch size（并发请求数） S：上下文长度（pr...

旧方法：在大模型上直接调参（极度昂贵且缓慢）。新方法（Scaling Laws）：在小模型上调参，总结规律，然后外推（extrapolate）到大模型。 1. Scaling law 是什么：为什么 log-log 上是一条直线？幂律（Power law）的核心形式： \[\text{Loss} \approx A \cdot x^{-\alpha} + \text{(常数/下界)}\] 为简洁起见，本文把测试集上的 loss / error（如 test loss、generalization error）统称为 “Loss/误差”，不区分具体任务指标的常数差异。在双对数坐标系中： \[\log(\text{Loss}) \approx -\alpha \log(x...

1. 为什么必须并行：瓶颈来自两类量 1.1 计算限制（Compute bound）单卡算力有限；更关键的是训练吞吐不仅看 FLOPs，还看通信能否被掩盖（overlap）以及并行策略的同步频率（每层同步 vs 每步同步）。 1.2 显存限制（Memory bound）显存消耗大体分三块： 1) 模型状态（model states）：参数、梯度、优化器状态。 2) 激活（activations）：为了反向传播需要保留的中间张量。 3) 临时张量/缓存（workspace / buffers）：GEMM、通信 buffer、KV cache（推理/长上下文训练更明显）。很多只看 1)，但长序列/深层模型的 2) 往往更致命：哪怕 ZeRO-3 把模型状态切到很省，激活仍可能...

Megatron 的 Float16Module 只会把位置参数转换成半精度（bf16/fp16）。一旦只用关键字参数，输入会保持原 dtype，导致前向混用 fp32/bf16。 1 相关代码代码位置：megatron/core/transformer/module.py#L404 https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/transformer/module.py#L404 def forward(self, *inputs, fp32_output=True, **kwargs): if parallel_state.is_pipeline_first_stage(i...

bf16 下使用 ApexRMSNorm，一旦 weight/gamma/scale 放大，输出标准差看似稳定，但均值会随机机漂移；换成 Transformer Engine 的 TENorm 就恢复稳定。 1 RMSNorm RMSNorm 只做均方根归一化，不减均值、也没有 beta 偏置： \[y = \frac{x}{\sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}} \odot \gamma\] d 为 hidden size，γ 逐通道缩放，通常初始化为 1。由于不减均值，输出是否“居零”高度依赖舍入误差；γ 越大，误差越容易被放大。 2 现象在 bf16 下把 γ 放大（例如 >3.5，或...

主页

预训练数据集巡礼

LLM 数据的生产

LLM 评估

LLM 推理（Inference）性能推导

Scaling Laws：从幂律到 Chinchilla（以及训练配方）

大模型并行的数学推导

Megatron Float16Module 的参数传法

ApexRMSNorm vs TENorm：bf16 大 weight 精度坑