词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 来源 | 可选 — 通过 hermes skills install official/mlops/huggingface-tokenizers 安装 |
| 路径 | optional-skills/mlops/huggingface-tokenizers |
| 版本 | 1.0.0 |
| 作者 | Orchestra Research |
| 许可证 | MIT |
| 依赖 | tokenizers, transformers, datasets |
| 平台 | linux, macos, windows |
| 标签 | Tokenization, HuggingFace, BPE, WordPiece, Unigram, Fast Tokenization, Rust, Custom Tokenizer, Alignment Tracking, Production |
frequency(pair) / (frequency(first) × frequency(second))[UNK]NFD, NFC, NFKD, NFKC — Unicode 归一化形式Lowercase() — 转为小写StripAccents() — 去除重音(é → e)Strip() — 去除空白Replace(pattern, content) — 正则替换Whitespace() — 按空格、制表符、换行符拆分ByteLevel() — GPT-2 风格的字节级拆分Punctuation() — 隔离标点Digits(individual_digits=True) — 逐个拆分数字Metaspace() — 将空格替换为 ▁(SentencePiece 风格)| 语料大小 | BPE(30k 词表) | WordPiece(30k) | Unigram(8k) |
|---|---|---|---|
| 10 MB | 15 秒 | 18 秒 | 25 秒 |
| 100 MB | 1.5 分钟 | 2 分钟 | 4 分钟 |
| 1 GB | 15 分钟 | 20 分钟 | 40 分钟 |
| 实现方式 | 1 GB 语料 | 吞吐量 |
|---|---|---|
| 纯 Python | ~20 分钟 | ~50 MB/分钟 |
| HF Tokenizers | ~15 秒 | ~4 GB/分钟 |
| 加速比 | 80× | 80× |
| 任务 | 内存 |
|---|---|
| 加载 tokenizer | ~10 MB |
| 训练 BPE(30k 词表) | ~200 MB |
| 编码 100 万句 | ~500 MB |
from_pretrained() 获取的预训练 tokenizer:bert-base-uncased, bert-large-caseddistilbert-base-uncasedroberta-base, roberta-largegpt2, gpt2-medium, gpt2-largedistilgpt2t5-small, t5-base, t5-largegoogle/flan-t5-xxlfacebook/bart-base, facebook/mbart-large-cc25albert-base-v2, albert-xlarge-v2xlm-roberta-base, xlm-roberta-large