词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 来源 | 可选 — 通过 hermes skills install official/mlops/slime 安装 |
| 路径 | optional-skills/mlops/slime |
| 版本 | 1.0.0 |
| 作者 | Orchestra Research |
| 许可证 | MIT |
| 依赖 | sglang-router>=0.2.3, ray, torch>=2.0.0, transformers>=4.40.0 |
| 平台 | linux, macos |
| 标签 | Reinforcement Learning, Megatron-LM, SGLang, GRPO, Post-Training, GLM |
┌─────────────────────────────────────────────────────────┐
│ Data Buffer │
│ - Prompt initialization and management │
│ - Custom data generation and filtering │
│ - Rollout sample storage │
└─────────────┬───────────────────────────┬───────────────┘
│ │
┌─────────────▼───────────┐ ┌─────────────▼───────────────┐
│ Training (Megatron-LM) │ │ Rollout (SGLang + Router) │
│ - Actor model training │ │ - Response generation │
│ - Critic (optional) │ │ - Reward/verifier output │
│ - Weight sync to rollout│ │ - Multi-turn support │
└─────────────────────────┘ └─────────────────────────────┘tensorboard --logdir outputs/examples/search-r1/。--sglang- 为前缀):rollout_batch_size × n_samples_per_prompt = global_batch_size × num_steps_per_rollout| 模型系列 | 配置 |
|---|---|
| GLM | GLM-4.5、GLM-4.6、GLM-4.7、GLM-Z1-9B |
| Qwen | Qwen3(4B、8B、30B-A3B)、Qwen3-MoE、Qwen2.5 |
| DeepSeek | V3、V3.1、R1 |
| Llama | Llama 3(8B、70B) |
| 其他 | Kimi K2、Moonlight-16B |
scripts/models/ 中均有预配置脚本。examples/ 目录,包含 14+ 个完整示例