LlamaFactory-2024-LLMs-fineunte-practice

LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models是一篇LLMs工程好文，来自LLaMA-Factory开源团队。该文从工程的角度对最近的模型高效微调技术做了系统性的整理和对比，同时就模型微调过程中的数据处理、模型参数初始化、训练设置和评估细节都做了比较全面的介绍，如果你整准备训练一个大语言模型，先看看这篇文章会少走很多弯路。

模型高效微调

论文首先介绍了LlamaFactory库集成的高效微调方法及其相互兼容性。从训练策略划分：

Freeze-tuning，采用冻结部分参数降低显存开销，提升训练速度
GaLore，2024年提出的新方法，通过将梯度投影到低秩空间，降低模型全参数更新的显存站用
LoRA，2022年提出的经典方案，冻结模型权重，训练与模型绑定的低秩矩阵，LoRA加上量化即为QLoRA
DoRA，2024年提出的新方法，将原始权重分解为幅度与方向分量，利用LoRA训练方向分量部分

训练过程的高效技巧包括：

Mixed precision，混合精度训练，降低显存开销
Checkpointing，梯度检查点，降低显存开销
Flash Attention，2022年提出，高效Attention计算方案
$S^2$ Attention，2024年提出降低模型在长上线文显存站用
Quantization，data-free的量化方法LLM.int8, 4-bit，post-training量化方法：GPTQ，AWQ等
Unsloth，2023年提出，引入Triton降低LoRA梯度方向传播的计算开销

LlamaFactory对比了多种模型fine-tuning方法在显存开销，训练速度，训练效果。下表中Memory为训练显存最高占用，Throughput为训练Tokens吞吐量，PPL（perplexity）为模型在训练数据集混淆度，越低越好。观察可发现LoRA, QLoRA在显存开销和PPL（训练效率）表现很好，吞吐量略逊于Freeze-tuning冻结部分参数微调。

对6个LLMs在3个下游任务fine-tuning对比中，QLoRA方法在绝大多数情况下均取得很好的效果，较baseline有了显著提升，说明了fine-tuning对下游任务的有效性，同时作者发现在英文数据集Mistral 7B取得最近，中文数据集Qwen1.5-7B取得最佳，说明微调后的模型性能很大程度上依然依赖基座模型的固有能力和语言偏好。