词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 后端 | 安装方式 | 优势 | 格式 |
|---|---|---|---|
| llama.cpp | brew install llama.cpp | 首 token 延迟最低,量化 KV 缓存节省内存 | GGUF |
| omlx | omlx.ai | token 生成速度最快,原生 Metal 优化 | MLX (safetensors) |
/v1/chat/completions 端点。Hermes 支持任意一个——只需将其指向 http://localhost:8080 或 http://localhost:8000。| 变体 | 磁盘占用 | 所需内存(128K 上下文) | 后端 |
|---|---|---|---|
| Qwen3.5-9B-Q4_K_M (GGUF) | 5.3 GB | ~10 GB(含量化 KV 缓存) | llama.cpp |
| Qwen3.5-9B-mlx-lm-mxfp4 (MLX) | ~5 GB | ~12 GB | omlx |
llama-server 命令。huggingface-cli 从 Hugging Face 下载:huggingface-cli login。| 参数 | 用途 |
|---|---|
-ngl 99 | 将所有层卸载到 GPU(Metal)。设置较大的数值以确保没有层留在 CPU 上。 |
-c 131072 | 上下文窗口大小(128K token)。内存不足时可减小此值。 |
-np 1 | 并行槽数量。单用户使用时保持为 1——更多槽会分摊内存预算。 |
-fa on | Flash attention。减少内存占用并加速长上下文推理。 |
--cache-type-k q4_0 | 将 key 缓存量化为 4-bit。这是最大的内存节省手段。 |
--cache-type-v q4_0 | 将 value 缓存量化为 4-bit。与上一项合用,相比 f16 可将 KV 缓存内存减少约 75%。 |
--host 0.0.0.0 | 监听所有网络接口。若不需要网络访问,可改为 127.0.0.1。 |
main: server is listening on http://0.0.0.0:8080
srv update_slots: all slots are idle--cache-type-k q4_0 --cache-type-v q4_0 参数是内存有限系统最重要的优化手段。以下是 128K 上下文下的影响对比:| KV 缓存类型 | KV 缓存内存(128K 上下文,9B 模型) |
|---|---|
| f16(默认) | ~16 GB |
| q8_0 | ~8 GB |
| q4_0 | ~4 GB |
q4_0 KV 缓存并将上下文缩减为 -c 32768(32K)。在 16 GB 上,可以轻松使用 128K 上下文。在 32 GB+ 上,可以运行更大的模型或多个并行槽。-c),然后尝试更小的量化级别(Q3_K_M 代替 Q4_K_M)。Qwen3.5-9B-mlx-lm-mxfp4 并下载。模型存储在本地(通常位于 ~/.omlx/models/)。http://127.0.0.1:8000 上提供服务。通过应用 UI 启动服务,或在可用时使用 CLI。| 指标 | llama.cpp (Q4_K_M) | MLX (mxfp4) | 胜者 |
|---|---|---|---|
| TTFT(首 token 延迟,均值) | 67 ms | 289 ms | llama.cpp(快 4.3 倍) |
| TTFT(p50) | 66 ms | 286 ms | llama.cpp(快 4.3 倍) |
| 生成速度(均值) | 70 tok/s | 96 tok/s | MLX(快 37%) |
| 生成速度(p50) | 70 tok/s | 96 tok/s | MLX(快 37%) |
| 总耗时(512 token) | 7.3s | 5.5s | MLX(快 25%) |
| 使用场景 | 推荐 |
|---|---|
| 交互式聊天、低延迟工具 | llama.cpp |
| 长文本生成、批量处理 | MLX (omlx) |
| 内存受限(8–16 GB) | llama.cpp(量化 KV 缓存无可匹敌) |
| 同时提供多个模型服务 | omlx(内置多模型支持) |
| 最大兼容性(含 Linux) | llama.cpp |
| 超时类型 | 默认值 | 本地自动调整 | 环境变量覆盖 |
|---|---|---|---|
| 流式读取(socket 级别) | 120s | 提升至 1800s | HERMES_STREAM_READ_TIMEOUT |
| 停滞流检测 | 180s | 完全禁用 | HERMES_STREAM_STALE_TIMEOUT |
| API 调用(非流式) | 1800s | 无需调整 | HERMES_API_TIMEOUT |