{/* This page is auto-generated from the skill's SKILL.md by website/scripts/generate-skill-docs.py. Edit the source SKILL.md, not this page. */}

Peft Fine Tuning

使用 LoRA、QLoRA 及 25+ 种方法对 LLM 进行参数高效微调（Parameter-efficient fine-tuning）。适用场景：在显存有限的情况下微调大型模型（7B–70B）、需要以极低精度损失训练不足 1% 的参数，或用于多适配器（multi-adapter）服务。HuggingFace 官方库，与 transformers 生态深度集成。

Skill 元数据


来源	可选 — 通过 `hermes skills install official/mlops/peft` 安装
路径	`optional-skills/mlops/peft`
版本	`1.0.0`
作者	Orchestra Research
许可证	MIT
依赖	`peft>=0.13.0`, `transformers>=4.45.0`, `torch>=2.0.0`, `bitsandbytes>=0.43.0`
平台	linux, macos, windows
标签	`Fine-Tuning`, `PEFT`, `LoRA`, `QLoRA`, `Parameter-Efficient`, `Adapters`, `Low-Rank`, `Memory Optimization`, `Multi-Adapter`

参考：完整 SKILL.md

信息

以下是 Hermes 在触发该 skill 时加载的完整 skill 定义。这是 agent 在 skill 激活时所看到的指令内容。

PEFT（参数高效微调）

通过 LoRA、QLoRA 及 25+ 种适配器方法，仅训练不足 1% 的参数来微调 LLM。

何时使用 PEFT

在以下情况使用 PEFT/LoRA：

在消费级 GPU（RTX 4090、A100）上微调 7B–70B 模型

需要训练不足 1% 的参数（6MB 适配器 vs 14GB 完整模型）

希望通过多个任务专属适配器快速迭代

从单一基础模型部署多个微调变体

在以下情况使用 QLoRA（PEFT + 量化）：

在单张 24GB GPU 上微调 70B 模型

显存是主要瓶颈

可接受相比完整微调约 5% 的质量损失

在以下情况改用完整微调：

训练小型模型（参数量 < 1B）

需要最高质量且有充足算力预算

显著的领域偏移需要更新全部权重

快速开始

安装

LoRA 微调（标准方式）

QLoRA 微调（显存高效方式）

LoRA 参数选择

秩（r）——容量与效率的权衡

秩	可训练参数量	显存	质量	适用场景
4	~3M	极低	较低	简单任务、原型验证
8	~7M	低	良好	推荐起始点
16	~14M	中等	更好	通用微调
32	~27M	较高	高	复杂任务
64	~54M	高	最高	领域适配、70B 模型

Alpha（lora_alpha）——缩放因子

按架构选择目标模块

加载与合并适配器

加载已训练的适配器

将适配器合并到基础模型

多适配器服务

PEFT 方法对比

方法	可训练参数占比	显存	速度	最适场景
LoRA	0.1–1%	低	快	通用微调
QLoRA	0.1–1%	极低	中等	显存受限场景
AdaLoRA	0.1–1%	低	中等	自动秩选择
IA3	0.01%	极小	最快	少样本适配
Prefix Tuning	0.1%	低	中等	生成控制
Prompt Tuning	0.001%	极小	快	简单任务适配
P-Tuning v2	0.1%	低	中等	NLU 任务

IA3（最少参数）

Prefix Tuning

集成模式

与 TRL（SFTTrainer）集成

与 Axolotl（YAML 配置）集成

与 vLLM（推理）集成

性能基准

显存占用（Llama 3.1 8B）

方法	GPU 显存	可训练参数量
完整微调	60+ GB	8B（100%）
LoRA r=16	18 GB	14M（0.17%）
QLoRA r=16	6 GB	14M（0.17%）
IA3	16 GB	800K（0.01%）

训练速度（A100 80GB）

方法	Tokens/秒	相对完整微调
完整微调	2,500	1x
LoRA	3,200	1.3x
QLoRA	2,100	0.84x

质量（MMLU 基准）

模型	完整微调	LoRA	QLoRA
Llama 2-7B	45.3	44.8	44.1
Llama 2-13B	54.8	54.2	53.5

常见问题

训练时 CUDA 显存不足（OOM）

适配器未生效

质量下降

最佳实践

从 r=8–16 开始，质量不足时再提高

以 alpha = 2 * rank 为起始点

同时针对注意力层和 MLP 层以获得最佳质量/效率比

启用梯度检查点以节省显存

频繁保存适配器（文件小，便于回滚）

合并前在留出数据上评估

70B+ 模型在消费级硬件上使用 QLoRA

参考资料

高级用法 — DoRA、LoftQ、秩稳定化、自定义模块

故障排查 — 常见错误、调试、优化

资源

GitHub：https://github.com/huggingface/peft

文档：https://huggingface.co/docs/peft

LoRA 论文：arXiv:2106.09685

QLoRA 论文：arXiv:2305.14314

模型：https://huggingface.co/models?library=peft

"Peft Fine Tuning — 使用 LoRA、QLoRA 及 25+ 种方法对 LLM 进行参数高效微调"

Peft Fine Tuning#

Skill 元数据#

参考：完整 SKILL.md#

PEFT（参数高效微调）#

何时使用 PEFT#

快速开始#

安装#

LoRA 微调（标准方式）#

QLoRA 微调（显存高效方式）#

LoRA 参数选择#

秩（r）——容量与效率的权衡#

Alpha（lora_alpha）——缩放因子#

按架构选择目标模块#

加载与合并适配器#

加载已训练的适配器#

将适配器合并到基础模型#

多适配器服务#

PEFT 方法对比#

IA3（最少参数）#

Prefix Tuning#

集成模式#

与 TRL（SFTTrainer）集成#

与 Axolotl（YAML 配置）集成#

与 vLLM（推理）集成#

性能基准#

显存占用（Llama 3.1 8B）#

训练速度（A100 80GB）#

质量（MMLU 基准）#

常见问题#

训练时 CUDA 显存不足（OOM）#

适配器未生效#

质量下降#

最佳实践#

参考资料#

资源#

Peft Fine Tuning

Skill 元数据

参考：完整 SKILL.md

PEFT（参数高效微调）

何时使用 PEFT

快速开始

安装

LoRA 微调（标准方式）

QLoRA 微调（显存高效方式）

LoRA 参数选择

秩（r）——容量与效率的权衡

Alpha（lora_alpha）——缩放因子

按架构选择目标模块

加载与合并适配器

加载已训练的适配器

将适配器合并到基础模型

多适配器服务

PEFT 方法对比

IA3（最少参数）

Prefix Tuning

集成模式

与 TRL（SFTTrainer）集成

与 Axolotl（YAML 配置）集成

与 vLLM（推理）集成

性能基准

显存占用（Llama 3.1 8B）

训练速度（A100 80GB）

质量（MMLU 基准）

常见问题

训练时 CUDA 显存不足（OOM）

适配器未生效

质量下降

最佳实践

参考资料

资源