BAAI/CCI3-HQ
Viewer • Updated • 54.8M • 2.73k • 59
本仓库提供一个基于 Byte Pair Encoding (BPE) 的中文分词器(Tokenizer),专为中文文本设计。该分词器通过子词(Subword)切分技术,将中文文本拆分为更细粒度的 token,适用于大语言模型(LLM)的预处理任务。
本仓库仅包含以下文件:
Hengzongshu/chinese-bbpe-vocab/
├── tokenizer.json # 分词器配置文件(核心文件)
└── README.md # 当前 Model Card
由于本仓库为独立分词器仓库,请使用 tokenizers 库直接加载 tokenizer.json 文件(需要下载到本地):
from tokenizers import Tokenizer
# 加载分词器
tokenizer = Tokenizer.from_file("tokenizer.json") #你的tokenizer.json文件位置
# 分词示例
encoded = tokenizer.encode("自然语言处理")
print(encoded.tokens)
print(encoded.ids)
不要使用 transformers.AutoTokenizer 加载本仓库,因为其需要模型配置文件(config.json),而本仓库未提供:
# ❌ 报错示例(缺少 config.json)
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Hengzongshu/chinese-bbpe-vocab")
tokenizer.json),不包含模型权重。请勿将其与完整模型仓库混淆。tokenizers 库(Hugging Face 官方库)加载分词器。pip install tokenizers
tokenizer.json 文件实际存在于指定路径,否则会报 FileNotFoundError。tokenizer.get_vocab_size() 查看。[unk]、[s]、[pad] 等常见特殊标记(如需自定义,请修改 tokenizer.json)。本仓库采用 MIT License,允许自由使用、修改和分发,但需保留原始版权声明。详情请参见 LICENSE 文件。