主页

预训练数据集巡礼

本文是《LLM 数据的生产》的下篇,对主流预训练数据集做纵览。上篇讲训练阶段框架、法律与后训练数据,见 llm-data-produce。 4. 预训练数据巡礼(Pretraining) 目标:对主流模型的”数据配方”做一次纵览;观察到一个共性:大量工作集中在转换(HTML→文本)、过滤、去重、质量/毒性/PII控制。 4.1 BERT(2019):BooksCorpus + Wikipedia 论文:https://arxiv.org/pdf/1810.04805 BERT 训练数据由两部分组成: BooksCorpus(书籍) Wikipedia 一个容易忽略但很重要的点:BERT 训练时的序列单位是文...

阅读更多

LLM 数据的生产

数据不是凭空出现的,数据管线(收集→转换→过滤→去重→聚合)往往是决定模型能力与差异化的关键。 1. 核心观点:为什么数据最重要? Hot take:训练语言模型时,最重要的是把数据搞对。 一个理由:看公司披露的信息。 开源权重模型(例如 Llama 3)在架构、训练流程上可能比较透明,但对训练数据几乎不公开。 数据保密的两个主要原因: 竞争优势(数据是壁垒) 版权风险(数据来源可能涉及侵权) 历史对比: 基础模型之前:数据工作更多是“重标注”的监督学习。 现在:标注减少,但“筛选、清洗、策划、去重”的工作量依然巨大。 数据...

阅读更多

LLM 评估

0. 主题与结论预告 评测要回答的问题很朴素:在模型已经固定的情况下,它到底“好不好”? 不存在唯一正确的评测;必须先明确你想测量什么,再选择或设计评测。 不要只盯着汇总分数;要回到具体样本与模型预测,理解失败模式。 评测维度不止能力,还包括安全、成本、以及与真实使用场景的贴合度。 必须把“游戏规则”讲清楚:评的是方法,还是模型/系统(含提示词、工具、RAG、脚手架等)。 1. 分数与“氛围感” 1.1 基准分数 图:DeepSeek-R1 基准成绩 引用:DeepSeek-R1 论文(PDF)https://arxiv.org/pdf/2501.12948.pdf ...

阅读更多

LLM 推理(Inference)性能推导

1. 先把推理过程拆开:Prefill vs Decode 同一个模型,在推理时其实有两个阶段: Prefill(预填充):把 prompt 一次性喂进去,算出每层的隐藏状态,同时把 K/V 写入 KV Cache。这个阶段对 prompt 的 token 可并行,形态更像训练,通常更接近 compute-bound。 Decode(生成/解码):自回归逐 token 生成。每一步只处理 “当前 1 个 token”,需要读取(并更新)已有的 KV Cache。这个阶段通常 memory-bound,决定了 tokens/s。 2. 符号约定 2.1 变量的定义 为了方便推导,定义变量: B:batch size(并发请求数) S:上下文长度(pr...

阅读更多

Scaling Laws:从幂律到 Chinchilla(以及训练配方)

旧方法:在大模型上直接调参(极度昂贵且缓慢)。 新方法(Scaling Laws):在小模型上调参,总结规律,然后外推(extrapolate)到大模型。 1. Scaling law 是什么:为什么 log-log 上是一条直线? 幂律(Power law)的核心形式: \[\text{Loss} \approx A \cdot x^{-\alpha} + \text{(常数/下界)}\] 为简洁起见,本文把测试集上的 loss / error(如 test loss、generalization error)统称为 “Loss/误差”,不区分具体任务指标的常数差异。 在双对数坐标系中: \[\log(\text{Loss}) \approx -\alpha \log(x...

阅读更多

大模型并行的数学推导

1. 为什么必须并行:瓶颈来自两类量 1.1 计算限制(Compute bound) 单卡算力有限;更关键的是训练吞吐不仅看 FLOPs,还看通信能否被掩盖(overlap)以及并行策略的同步频率(每层同步 vs 每步同步)。 1.2 显存限制(Memory bound) 显存消耗大体分三块: 1) 模型状态(model states):参数、梯度、优化器状态。 2) 激活(activations):为了反向传播需要保留的中间张量。 3) 临时张量/缓存(workspace / buffers):GEMM、通信 buffer、KV cache(推理/长上下文训练更明显)。 很多只看 1),但长序列/深层模型的 2) 往往更致命:哪怕 ZeRO-3 把模型状态切到很省,激活仍可能...

阅读更多

Megatron Float16Module 的参数传法

Megatron 的 Float16Module 只会把位置参数转换成半精度(bf16/fp16)。一旦只用关键字参数,输入会保持原 dtype,导致前向混用 fp32/bf16。 1 相关代码 代码位置:megatron/core/transformer/module.py#L404 https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/transformer/module.py#L404 def forward(self, *inputs, fp32_output=True, **kwargs): if parallel_state.is_pipeline_first_stage(i...

阅读更多

ApexRMSNorm vs TENorm:bf16 大 weight 精度坑

bf16 下使用 ApexRMSNorm,一旦 weight/gamma/scale 放大,输出标准差看似稳定,但均值会随机机漂移;换成 Transformer Engine 的 TENorm 就恢复稳定。 1 RMSNorm RMSNorm 只做均方根归一化,不减均值、也没有 beta 偏置: \[y = \frac{x}{\sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}} \odot \gamma\] d 为 hidden size,γ 逐通道缩放,通常初始化为 1。 由于不减均值,输出是否“居零”高度依赖舍入误差;γ 越大,误差越容易被放大。 2 现象 在 bf16 下把 γ 放大(例如 >3.5,或...

阅读更多