Python中的transformers.BertTokenizerfrom_pretrained()方法用于加载中文预训练模型

发布时间：2023-12-23 18:16:35

transformers.BertTokenizer.from_pretrained()方法是Hugging Face开发的transformers库中的一个功能，用于加载预训练的BERT模型的分词器（Tokenizer）。通过该方法，可以方便地加载中文预训练模型，并对中文文本进行分词处理。

下面是一个使用该方法加载中文预训练模型的例子：

from transformers import BertTokenizer

# 加载中文BERT预训练模型分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 需要分词的中文文本
text = "我爱自然语言处理"

# 使用分词器对文本进行分词处理
tokens = tokenizer.tokenize(text)
print(tokens)

# 将分词结果转换为模型可接受的输入格式
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print(input_ids)

在上述例子中，我们首先使用BertTokenizer.from_pretrained()方法加载了名为'bert-base-chinese'的中文预训练模型的分词器。接着，我们定义了一个中文文本（"我爱自然语言处理"），并使用tokenizer.tokenize()方法对其进行分词处理。最后，使用tokenizer.convert_tokens_to_ids()方法将分词结果转换为模型可以接受的输入格式。

输出结果如下：

['我', '爱', '自', '然', '语', '言', '处', '理']
[2769, 4263, 5632, 3736, 6848, 6205, 6887, 3611]

可以看到，分词结果是将中文文本拆分成了单个的汉字，并且通过convert_tokens_to_ids()方法将分词结果转换为了对应的模型输入id。

需要注意的是，使用BertTokenizer.from_pretrained()方法加载中文预训练模型需要提前安装transformers库，可以使用以下命令进行安装：

pip install transformers

同时，也需要确保本地网络连接正常，以便从Hugging Face的模型仓库中下载中文预训练模型。