{/* This page is auto-generated from the skill's SKILL.md by website/scripts/generate-skill-docs.py. Edit the source SKILL.md, not this page. */}

Slime Rl Training

使用 slime（Megatron+SGLang 框架）进行 LLM RL（强化学习）后训练的指导。适用于训练 GLM 模型、实现自定义数据生成工作流，或需要 Megatron-LM 紧密集成以进行 RL 扩展的场景。

Skill 元数据


来源	可选 — 通过 `hermes skills install official/mlops/slime` 安装
路径	`optional-skills/mlops/slime`
版本	`1.0.0`
作者	Orchestra Research
许可证	MIT
依赖	`sglang-router>=0.2.3`, `ray`, `torch>=2.0.0`, `transformers>=4.40.0`
平台	linux, macos
标签	`Reinforcement Learning`, `Megatron-LM`, `SGLang`, `GRPO`, `Post-Training`, `GLM`

参考：完整 SKILL.md

信息

以下是 Hermes 在触发此 skill 时加载的完整 skill 定义。这是 agent 在 skill 激活时所看到的指令内容。

slime：面向 RL 扩展的 LLM 后训练框架

slime 是清华大学 THUDM 团队开发的 LLM 后训练框架，为 GLM-4.5、GLM-4.6 和 GLM-4.7 提供支持。它将 Megatron-LM（用于训练）与 SGLang（用于高吞吐量 rollout 生成）相连接。

何时使用 slime

在以下情况下选择 slime：

需要 Megatron-LM 原生训练配合 SGLang 推理

需要带有灵活数据缓冲区的自定义数据生成工作流

训练 GLM、Qwen3、DeepSeek V3 或 Llama 3 模型

需要具有生产级支持（Z.ai）的研究级框架

在以下情况下考虑替代方案：

需要企业级稳定性功能 → 使用 miles

需要灵活的后端切换 → 使用 verl

需要 PyTorch 原生抽象 → 使用 torchforge

核心特性

训练：Megatron-LM，支持完整并行（TP、PP、DP、SP）

Rollout：基于 SGLang 的高吞吐量生成，带 router

数据缓冲区：灵活的 prompt 管理与样本存储

模型：GLM-4.x、Qwen3、DeepSeek V3/R1、Llama 3

架构概览

┌─────────────────────────────────────────────────────────┐
│                    Data Buffer                          │
│ - Prompt initialization and management                  │
│ - Custom data generation and filtering                  │
│ - Rollout sample storage                                │
└─────────────┬───────────────────────────┬───────────────┘
              │                           │
┌─────────────▼───────────┐ ┌─────────────▼───────────────┐
│ Training (Megatron-LM)  │ │ Rollout (SGLang + Router)   │
│ - Actor model training  │ │ - Response generation       │
│ - Critic (optional)     │ │ - Reward/verifier output    │
│ - Weight sync to rollout│ │ - Multi-turn support        │
└─────────────────────────┘ └─────────────────────────────┘

安装

从源码安装

快速开始：GRPO 训练

工作流 1：标准 GRPO 训练

使用此工作流通过组相对优势（group-relative advantages）训练推理模型。

前置条件清单

Docker 环境，或已安装 Megatron-LM + SGLang

模型检查点（HuggingFace 或 Megatron 格式）

JSONL 格式的训练数据

第一步：准备数据

或使用对话格式：

第二步：配置模型

选择预配置的模型脚本：

第三步：启动训练

第四步：监控训练

查看 TensorBoard：tensorboard --logdir outputs/

确认奖励曲线持续上升

监控各节点 GPU 利用率

工作流 2：异步训练

使用异步模式通过重叠 rollout 与训练来提高吞吐量。

何时使用异步模式

大型模型生成时间较长

同步模式下 GPU 空闲时间较多

有足够内存用于缓冲

启动异步训练

异步专用参数

工作流 3：多轮 Agentic 训练

使用此工作流训练具备工具调用或多步推理能力的 agent。

前置条件

用于多轮逻辑的自定义 generate 函数

工具/环境接口

第一步：定义自定义 Generate 函数

第二步：使用自定义函数启动

完整的多轮搜索示例请参见 examples/search-r1/。

配置参考

三类参数

slime 使用三种类型的参数：

1. Megatron 参数（直接传入）：

2. SGLang 参数（以 --sglang- 为前缀）：

3. slime 参数：

关键约束

rollout_batch_size × n_samples_per_prompt = global_batch_size × num_steps_per_rollout

示例：32 × 8 = 256 × 1

数据缓冲区系统

slime 的数据缓冲区支持灵活的数据管理：

基础数据源

带缓冲区的数据源（离线策略）

常见问题与解决方案

问题：SGLang 引擎崩溃

现象：推理引擎在训练中途退出

解决方案：

问题：权重同步超时

现象：rollout 后训练挂起

解决方案：

问题：训练时 OOM

现象：反向传播时 CUDA OOM

解决方案：

问题：数据加载缓慢

现象：数据获取期间 GPU 空闲

解决方案：

支持的模型

模型系列	配置
GLM	GLM-4.5、GLM-4.6、GLM-4.7、GLM-Z1-9B
Qwen	Qwen3（4B、8B、30B-A3B）、Qwen3-MoE、Qwen2.5
DeepSeek	V3、V3.1、R1
Llama	Llama 3（8B、70B）
其他	Kimi K2、Moonlight-16B

每个模型在 scripts/models/ 中均有预配置脚本。

进阶主题

Co-location 模式

训练与推理共享 GPU 以减少内存占用：

自定义奖励模型

多任务评估

资源

文档：https://thudm.github.io/slime/

GitHub：https://github.com/THUDM/slime

博客：https://lmsys.org/blog/2025-07-09-slime/

示例：参见 examples/ 目录，包含 14+ 个完整示例

"Slime Rl Training — 使用 slime（Megatron+SGLang 框架）进行 LLM RL 后训练的指导"

Slime Rl Training#

Skill 元数据#

参考：完整 SKILL.md#

slime：面向 RL 扩展的 LLM 后训练框架#

何时使用 slime#

核心特性#

架构概览#

安装#

从源码安装#

快速开始：GRPO 训练#

工作流 1：标准 GRPO 训练#

前置条件清单#

第一步：准备数据#

第二步：配置模型#

第三步：启动训练#

第四步：监控训练#

工作流 2：异步训练#

何时使用异步模式#

启动异步训练#

异步专用参数#

工作流 3：多轮 Agentic 训练#

前置条件#

第一步：定义自定义 Generate 函数#

第二步：使用自定义函数启动#

配置参考#

三类参数#

关键约束#

数据缓冲区系统#

基础数据源#

带缓冲区的数据源（离线策略）#

常见问题与解决方案#

问题：SGLang 引擎崩溃#

问题：权重同步超时#

问题：训练时 OOM#

问题：数据加载缓慢#

支持的模型#

进阶主题#

Co-location 模式#

自定义奖励模型#

多任务评估#

资源#

Slime Rl Training

Skill 元数据

参考：完整 SKILL.md

slime：面向 RL 扩展的 LLM 后训练框架

何时使用 slime

核心特性

架构概览

安装

从源码安装

快速开始：GRPO 训练

工作流 1：标准 GRPO 训练

前置条件清单

第一步：准备数据

第二步：配置模型

第三步：启动训练

第四步：监控训练

工作流 2：异步训练

何时使用异步模式

启动异步训练

异步专用参数

工作流 3：多轮 Agentic 训练

前置条件

第一步：定义自定义 Generate 函数

第二步：使用自定义函数启动

配置参考

三类参数

关键约束

数据缓冲区系统

基础数据源

带缓冲区的数据源（离线策略）

常见问题与解决方案

问题：SGLang 引擎崩溃

问题：权重同步超时

问题：训练时 OOM

问题：数据加载缓慢

支持的模型

进阶主题

Co-location 模式

自定义奖励模型

多任务评估

资源