高效参数微调

1 Parameter Efficient Fine-Tuning 概述

全参数微调（Full Parameter Fine-Tuning）在大模型上代价极高。以半精度（FP16/BF16）微调参数规模为 $N$ 的模型为例，显存占用可按如下估算：

权重（Weights）：$2 \text{ bytes} \times N$
权重梯度（Gradients）：$2 \text{ bytes} \times N$
优化器状态（Optimizer States）：$2 \times 2 \text{ bytes} \times N = 4 \text{ bytes} \times N$
激活值（Activations）：约为参数量的 $1\sim2$ 倍

例如 LLaMA-8B 模型，在全参数训练时大约需要 80GB 显存。

LoRA 通过冻结原始参数，仅对注意力层的权重矩阵 $(W_Q, W_K, W_V, W_O)$ 进行 低秩分解（Low-Rank Decomposition）：

\[\Delta W = A \cdot B\]

其中：

更新时只对 $A$ 和 $B$ 进行梯度优化，而原始权重 $W$ 冻结不变。注意：LoRA 不应用于前馈网络（FFN） 的线性层，因为这些层主要用于知识存储。

推理时，使用合成权重：

\[W' = W + A \cdot B\]

这样仅需在显存中额外存储少量 $A, B$ 参数（例如 $r = 8$ 或 $16$）。框架如 vLLM 已原生支持不同 LoRA 权重的动态切换。

alt text

以 LLaMA-8B 模型为例：

显存节省达 数千倍，极大降低训练门槛。

Rank 增大会增加可训练参数，但超过一定阈值后收益迅速递减。实践中一般取 $r = 8$ 即能取得较佳平衡

QLoRA 结合了量化（Quantization）与低秩适配（LoRA）的思想。其训练过程涉及两种精度类型：

参考；Dettmers et al. QLORA: Efficient Finetuning of Quantized LLMs. NeurIPS 2023.

QLoRA 通常使用 4-bit NF4 格式 表示权重，其核心思想是：

https://github.com/artidoro/qlora/blob/main/examples/guanaco_7B_demo_colab.ipynb