Python中的transformers.BertTokenizerfrom_pretrained()方法用于加载预训练的中文模型

发布时间：2023-12-23 18:17:22

transformers.BertTokenizer.from_pretrained() 方法是用来加载预训练的BERT模型并创建一个BertTokenizer实例的函数。该方法可以用于加载已经训练好的中文BERT模型，并返回一个可以用于分词和编码的tokenizer对象。

以下是一个使用transformers.BertTokenizer.from_pretrained()方法加载中文BERT模型的示例代码：

from transformers import BertTokenizer

# 加载预训练的中文BERT模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 输入文本
text = "今天天气不错"

# 使用tokenizer对文本进行分词和编码
tokens = tokenizer.tokenize(text)
ids = tokenizer.convert_tokens_to_ids(tokens)

# 打印分词结果和编码数据
print("分词结果:", tokens)
print("编码数据:", ids)

在上面的例子中，我们首先使用BertTokenizer.from_pretrained('bert-base-chinese')加载了预训练的中文BERT模型。然后，我们定义了一个要处理的文本（"今天天气不错"），并使用tokenizer对文本进行分词和编码。

使用tokenizer.tokenize(text)将文本分词成一系列的tokens（例如，['今', '天', '天', '气', '不', '错']），而tokenizer.convert_tokens_to_ids(tokens)则将这些tokens转换为对应的id序列（例如，[791, 1921, 1921, 3698, 679, 1468]）。

最后，我们打印了分词结果和编码数据。

通过这个例子，你可以清楚地了解到如何使用transformers.BertTokenizer.from_pretrained()方法加载预训练的中文BERT模型，并使用tokenizer对文本进行分词和编码。