{/* This page is auto-generated from the skill's SKILL.md by website/scripts/generate-skill-docs.py. Edit the source SKILL.md, not this page. */}

使用 TRL 进行微调

TRL：面向 LLM RLHF 的 SFT、DPO、PPO、GRPO 及奖励建模。

Skill 元数据


来源	可选 — 通过 `hermes skills install official/mlops/trl-fine-tuning` 安装
路径	`optional-skills/mlops/training/trl-fine-tuning`
版本	`1.0.0`
作者	Orchestra Research
许可证	MIT
依赖项	`trl`, `transformers`, `datasets`, `peft`, `accelerate`, `torch`
平台	linux, macos, windows
标签	`Post-Training`, `TRL`, `Reinforcement Learning`, `Fine-Tuning`, `SFT`, `DPO`, `PPO`, `GRPO`, `RLHF`, `Preference Alignment`, `HuggingFace`

参考：完整 SKILL.md

信息

以下是 Hermes 在触发此 skill 时加载的完整 skill 定义。这是 agent 在 skill 激活时所看到的指令内容。

TRL - Transformer Reinforcement Learning

快速开始

TRL 提供用于将语言模型与人类偏好对齐的后训练（post-training）方法。

安装：

监督微调（SFT）（指令微调）：

DPO（偏好对齐）：

常见工作流

工作流 1：完整 RLHF 流水线（SFT → 奖励模型 → PPO）

从基础模型到人类对齐模型的完整流水线。

复制此检查清单：

RLHF Training:
- [ ] Step 1: Supervised fine-tuning (SFT)
- [ ] Step 2: Train reward model
- [ ] Step 3: PPO reinforcement learning
- [ ] Step 4: Evaluate aligned model

第 1 步：监督微调

在指令跟随数据上训练基础模型：

第 2 步：训练奖励模型

训练模型以预测人类偏好：

第 3 步：PPO 强化学习

使用奖励模型优化策略：

第 4 步：评估

工作流 2：使用 DPO 进行简单偏好对齐

无需奖励模型即可对齐模型偏好。

复制此检查清单：

DPO Training:
- [ ] Step 1: Prepare preference dataset
- [ ] Step 2: Configure DPO
- [ ] Step 3: Train with DPOTrainer
- [ ] Step 4: Evaluate alignment

第 1 步：准备偏好数据集

数据集格式：

{
  "prompt": "What is the capital of France?",
  "chosen": "The capital of France is Paris.",
  "rejected": "I don't know."
}

加载数据集：

第 2 步：配置 DPO

第 3 步：使用 DPOTrainer 训练

CLI 替代方式：

工作流 3：使用 GRPO 进行内存高效的在线 RL

以最小内存占用进行强化学习训练。

关于深入的 GRPO 指导——奖励函数设计、关键训练洞察（损失行为、模式崩溃、调参）以及高级多阶段模式——请参阅 references/grpo-training.md。生产就绪的训练脚本位于 templates/basic_grpo_training.py。

复制此检查清单：

GRPO Training:
- [ ] Step 1: Define reward function
- [ ] Step 2: Configure GRPO
- [ ] Step 3: Train with GRPOTrainer

第 1 步：定义奖励函数

或使用奖励模型：

第 2 步：配置 GRPO

第 3 步：使用 GRPOTrainer 训练

CLI：

何时使用 TRL 及替代方案

适合使用 TRL 的场景：

需要将模型与人类偏好对齐

拥有偏好数据（chosen/rejected 对）

希望使用强化学习（PPO、GRPO）

需要训练奖励模型

执行完整 RLHF 流水线

方法选择：

SFT：拥有 prompt-completion 对，需要基础指令跟随

DPO：拥有偏好数据，需要简单对齐（无需奖励模型）

PPO：拥有奖励模型，需要对 RL 进行最大程度的控制

GRPO：内存受限，需要在线 RL

奖励模型：构建 RLHF 流水线，需要对生成内容评分

改用替代方案的场景：

HuggingFace Trainer：无需 RL 的基础微调

Axolotl：基于 YAML 的训练配置

LitGPT：教学用途、极简微调

Unsloth：快速 LoRA 训练

常见问题

问题：DPO 训练时显存溢出（OOM）

减小批次大小和序列长度：

或启用梯度检查点：

问题：对齐质量差

调整 beta 参数：

问题：奖励模型无法学习

检查损失类型和学习率：

确保偏好数据集有明确的优劣区分：

问题：PPO 训练不稳定

调整 KL 系数：

高级主题

SFT 训练指南：参阅 references/sft-training.md，了解数据集格式、chat template、packing 策略及多 GPU 训练。

DPO 变体：参阅 references/dpo-variants.md，了解 IPO、cDPO、RPO 及其他 DPO 损失函数与推荐超参数。

奖励建模：参阅 references/reward-modeling.md，了解结果奖励与过程奖励、Bradley-Terry 损失及奖励模型评估。

在线 RL 方法：参阅 references/online-rl.md，了解 PPO、GRPO、RLOO 及 OnlineDPO 的详细配置。

GRPO 深度解析：参阅 references/grpo-training.md，获取专家级 GRPO 模式——奖励函数设计理念、训练洞察（为何损失上升、模式崩溃检测）、超参数调优、多阶段训练及故障排查。生产就绪模板位于 templates/basic_grpo_training.py。

硬件要求

GPU：NVIDIA（需要 CUDA）

显存（VRAM）：取决于模型和方法

SFT 7B：16GB（使用 LoRA）

DPO 7B：24GB（存储参考模型）

PPO 7B：40GB（策略模型 + 奖励模型）

GRPO 7B：24GB（内存效率更高）

多 GPU：通过 accelerate 支持

混合精度：推荐 BF16（A100/H100）

内存优化：

所有方法均可使用 LoRA/QLoRA

启用梯度检查点

使用更小的批次大小配合梯度累积

资源

文档：https://huggingface.co/docs/trl/

GitHub：https://github.com/huggingface/trl

论文：

"Training language models to follow instructions with human feedback"（InstructGPT，2022）

"Direct Preference Optimization: Your Language Model is Secretly a Reward Model"（DPO，2023）

"Group Relative Policy Optimization"（GRPO，2024）

示例：https://github.com/huggingface/trl/tree/main/examples/scripts

"使用 TRL 进行微调 — TRL：面向 LLM RLHF 的 SFT、DPO、PPO、GRPO 及奖励建模"

使用 TRL 进行微调#

Skill 元数据#

参考：完整 SKILL.md#

TRL - Transformer Reinforcement Learning#

快速开始#

常见工作流#

工作流 1：完整 RLHF 流水线（SFT → 奖励模型 → PPO）#

工作流 2：使用 DPO 进行简单偏好对齐#

工作流 3：使用 GRPO 进行内存高效的在线 RL#

何时使用 TRL 及替代方案#

常见问题#

高级主题#

硬件要求#

资源#

使用 TRL 进行微调

Skill 元数据

参考：完整 SKILL.md

TRL - Transformer Reinforcement Learning

快速开始

常见工作流

工作流 1：完整 RLHF 流水线（SFT → 奖励模型 → PPO）

工作流 2：使用 DPO 进行简单偏好对齐

工作流 3：使用 GRPO 进行内存高效的在线 RL

何时使用 TRL 及替代方案

常见问题

高级主题

硬件要求

资源