Python中的transformers.BertTokenizerfrom_pretrained()方法用于快速加载预训练的中文BERT模型

发布时间：2023-12-23 18:18:04

transformers库是一个用于自然语言处理的Python库，其中包括了许多预训练的模型和相关的工具。

BertTokenizer是transformers库中的一个类，用于将文本进行分词和编码，以便于后续使用BERT等模型进行处理。

from_pretrained()方法是BertTokenizer类的一个方法，用于加载预训练的BERT模型。该方法接受一个参数，即预训练模型的名称或路径，并返回一个BertTokenizer对象。

以下是一个示例，演示了如何使用from_pretrained()方法加载预训练的中文BERT模型：

from transformers import BertTokenizer

# 加载预训练的中文BERT模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 定义一个中文句子
sentence = "今天天气很好"

# 使用BertTokenizer对句子进行分词
tokens = tokenizer.tokenize(sentence)
print(tokens)

在上面的示例中，我们首先导入了BertTokenizer类，并使用from_pretrained()方法加载了一个预训练的中文BERT模型，指定模型名称为'bert-base-chinese'。之后，我们定义了一个中文句子，并使用BertTokenizer的tokenize()方法对句子进行分词。最后，将分词结果打印出来。

输出结果如下：

['今', '天', '天', '气', '很', '好']

可以看到，tokenize()方法将句子分成了多个词语，并以列表的形式返回了结果。

除了tokenize()方法外，BertTokenizer还有其他一些常用的方法和属性，比如encode()方法用于将文本转换成BERT模型可以接受的输入表示，decode()方法用于将模型输出的表示转换回文本，以及vocab属性用于获取模型的词汇表等。

总而言之，BertTokenizer.from_pretrained()方法可以快速加载预训练的中文BERT模型，并配合其他方法一起使用，可以方便地对中文文本进行处理。