词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 来源 | 可选 — 通过 hermes skills install official/mlops/flash-attention 安装 |
| 路径 | optional-skills/mlops/flash-attention |
| 版本 | 1.0.0 |
| 作者 | Orchestra Research |
| 许可证 | MIT |
| 依赖项 | flash-attn, torch, transformers |
| 平台 | linux, macos |
| 标签 | Optimization, Flash Attention, Attention Optimization, Memory Efficiency, Speed Optimization, Long Context, PyTorch, SDPA, H100, FP8, Transformers |
Flash Attention 集成:
- [ ] 步骤 1:检查 PyTorch 版本(≥2.2)
- [ ] 步骤 2:启用 Flash Attention 后端
- [ ] 步骤 3:通过性能分析验证加速效果
- [ ] 步骤 4:测试精度与基线一致flash-attn 库安装:
- [ ] 步骤 1:安装 flash-attn 库
- [ ] 步骤 2:修改注意力代码
- [ ] 步骤 3:启用高级功能
- [ ] 步骤 4:基准测试性能FP8 设置:
- [ ] 步骤 1:确认 H100 GPU 可用
- [ ] 步骤 2:安装支持 FP8 的 flash-attn
- [ ] 步骤 3:将输入转换为 FP8
- [ ] 步骤 4:使用 FP8 注意力运行2K token:3-4 倍加速