主页

《财富捷径》读书笔记

核心投资理念 1. 拥抱指数基金,放弃主动选股 唯一推荐的股市产品:大盘指数基金(如标普 500、纳斯达克 100) 个股风险极高:美国 6000 家上市公司每年有 180 家被摘牌(3%),40 年超半数公司破产 主动基金不堪一击:超过 90% 的主动基金在 30 年内关门,只有不到 3% 能超过最简单的指数基金 指数基金自动实现优胜劣汰:成分股公司衰落会被自动替换,从无大盘指数基金破产的先例 2. 基金定投:有钱就买,需钱即卖 核心策略:固定时间频率买入基金,完全忽视当下价格 优势:无脑简单、降低风险(平均成本法)、强制储蓄积累财富 把基金账户等同于存款账户 只在需要用钱时才卖出,不做择时 3. 长线投资,拒绝频繁交易 散户...

阅读更多

NVL72 架构解析:72 GPU 全互连拓扑

NVL72 是 NVIDIA GB200 系列中一个 72 GPU 的单机级 NVLink 交换网络。它不是简单的 72 张卡互联,而是一个精心设计的 全互连 (full crossbar) + 单级交换 (single switch stage) 拓扑。 硬件构成 整个系统由两个主要部分组成: 计算节点层 18 个计算托盘 (compute tray),每个托盘包含 4 个 Blackwell GPU,总计: 18 × 4 = 72 个 GPU 交换层 9 个 NVLink 交换托盘 (switch tray),每个托盘包含 2 个 NVSwitch 芯片,总计: 9 × 2 = 18 个 NVSwitch 芯片 连接拓扑 每个 GPU 的出线...

阅读更多

Megatron-FSDP 深度解析:从 ZeRO 到完全分片的工程实践

Megatron-LM 引入了一套自研的 FSDP 实现——Megatron-FSDP,替代了之前的custom_fsdp 位于 megatron/core/distributed/fsdp/src/megatron_fsdp/, 可以独立作为一个pip 包独立release 本文从v0.16的源码出发,深入分析它的设计取舍、与 PyTorch FSDP2 的差异、以及它如何与 Megatron m-core 体系深度集成。 v0.16(core_v0.16.1) 一、mFSDP的定位? PyTorch FSDP2(torch.distributed.fsdp)虽然功能完善,但对 Megatron-LM 的需求存在几个痛点: 并行维度耦合:Megatron 同时使用 ...

阅读更多

VSCode 无法读取代理环境变量的解决方案

在 macOS 上开发时,常见的做法是把代理配置写在 ~/.zshrc 里: export https_proxy=http://127.0.0.1:7897 export http_proxy=http://127.0.0.1:7897 export all_proxy=socks5://127.0.0.1:7897 在终端里运行 curl 或其他工具时一切正常,但在 VSCode 的插件中,代理失效,比如codex cli/claude code 这种 影响很大, 根本原因 ~/.zshrc 只在交互式 shell 启动时才会被 source。 当你从 Dock 或 Finder 点击打开 VSCode 时,macOS 启动的是一个非交互式进程,不会走 ~/.zshrc...

阅读更多

ZeRO:从优化器状态到残差状态的显存优化

关联阅读:ZeRO 作为数据并行 训练中的显存优化 1. 训练显存的组成 训练一个参数量为 $\Psi$ 的模型,全精度 Adam 优化器(FP16 混合精度)下,显存占用主要来自: 组件 精度 大小(bytes/参数) 参数(Master Weights) FP32 4 梯度 FP16 2 一阶矩 m FP32 4 二阶矩 v FP32 4 ...

阅读更多

虚拟流水线并行(VPP):更低气泡,更高吞吐

前置阅读:流水线并行(1F1B) 1. 回顾:1F1B 的气泡极限 1F1B 的气泡比率为: \[\text{bubble ratio}_{\text{1F1B}} = \frac{p - 1}{m}\] 想降低气泡,有两条路: 增大 $m$(micro-batch 数):但显存需求也随之增大(更多 in-flight 激活),且每个 micro-batch 变小会降低 GPU 的矩阵乘效率; 减小 $p$(stage 数):但这意味着要么缩减模型规模,要么每个 stage 承载更多层——两者都不是我们想要的。 VPP(Virtual Pipeline Parallelism,也叫 Interleaved PP)提供了第三条路:在不增加物理 GPU 数的前提...

阅读更多

序列并行(SP)与上下文并行(CP):超长上下文训练的关键

前置阅读:张量并行与通信 分布式训练并行基础 1. 为什么需要序列并行 训练长上下文(如 128K、1M token)模型时,内存瓶颈主要来自: 激活值:self-attention 的 $Q$、$K$、$V$ 和中间结果,内存随序列长度 $L$ 线性增长; KV Cache:每层的 $K$、$V$ 需要存储,$O(L \cdot d)$ 的显存; TP 的 Embedding / LayerNorm 副本:张量并行(TP)要求每张卡持有相同的完整激活,$L$ 大时这个”完整副本”变得难以承受。 序列并行(Sequence Parallelism,SP) 和 上下文并行(Context Parallelism,...

阅读更多

RLHF 到 GRPO:大模型强化学习训练方法梳理

关联阅读:SFT 与 RL 在推理中的应用 1. 背景:从 SFT 到 RLHF 预训练 + SFT 给了模型通用能力,但对齐(helpfulness、harmlessness、honesty)和进一步提升推理能力,光靠有监督微调效果有限。RLHF(Reinforcement Learning from Human Feedback) 通过让模型在”好的回复得到奖励”的环境下训练,成为 InstructGPT/ChatGPT 等产品的核心技术。 近年来,以 DeepSeek-R1 为代表的推理模型则更进一步——直接用 可验证奖励(Verifiable Reward) 替代人类反馈,在数学和代码等任务上取得了远超 SFT 的推理能力提升。 本文梳理从 PPO 到 GRPO ...

阅读更多