Python中的transformers.BertTokenizerfrom_pretrained()方法用于加载中文预训练模型
发布时间:2023-12-23 18:16:35
transformers.BertTokenizer.from_pretrained()方法是Hugging Face开发的transformers库中的一个功能,用于加载预训练的BERT模型的分词器(Tokenizer)。通过该方法,可以方便地加载中文预训练模型,并对中文文本进行分词处理。
下面是一个使用该方法加载中文预训练模型的例子:
from transformers import BertTokenizer
# 加载中文BERT预训练模型分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 需要分词的中文文本
text = "我爱自然语言处理"
# 使用分词器对文本进行分词处理
tokens = tokenizer.tokenize(text)
print(tokens)
# 将分词结果转换为模型可接受的输入格式
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print(input_ids)
在上述例子中,我们首先使用BertTokenizer.from_pretrained()方法加载了名为'bert-base-chinese'的中文预训练模型的分词器。接着,我们定义了一个中文文本("我爱自然语言处理"),并使用tokenizer.tokenize()方法对其进行分词处理。最后,使用tokenizer.convert_tokens_to_ids()方法将分词结果转换为模型可以接受的输入格式。
输出结果如下:
['我', '爱', '自', '然', '语', '言', '处', '理'] [2769, 4263, 5632, 3736, 6848, 6205, 6887, 3611]
可以看到,分词结果是将中文文本拆分成了单个的汉字,并且通过convert_tokens_to_ids()方法将分词结果转换为了对应的模型输入id。
需要注意的是,使用BertTokenizer.from_pretrained()方法加载中文预训练模型需要提前安装transformers库,可以使用以下命令进行安装:
pip install transformers
同时,也需要确保本地网络连接正常,以便从Hugging Face的模型仓库中下载中文预训练模型。
