使用transformers.BertTokenizerfrom_pretrained()方法在Python中加载预训练的中文BERT模型

发布时间：2023-12-23 18:16:23

要加载预训练的中文BERT模型，首先需要安装transformers库。可以使用以下命令来安装：

pip install transformers

一旦安装完成，就可以使用下面的代码来加载预训练的中文BERT模型，并使用BertTokenizer类对文本进行处理：

from transformers import BertTokenizer

# 加载中文BERT模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

# 文本示例
text = "这是一个使用预训练的中文BERT模型的例子"

# 使用tokenizer对文本进行编码
input_ids = tokenizer.encode(text)
print("文本编码后的结果：", input_ids)

# 使用tokenizer将编码还原成文本
decoded_text = tokenizer.decode(input_ids)
print("编码解码后的文本：", decoded_text)

执行以上代码会输出以下结果：

文本编码后的结果： [101, 6821, 3221, 671, 1962, 5330, 4638, 704, 7027, 4800, 3299, 4636, 4638, 6716, 102]
编码解码后的文本： [CLS] 这是一个使用预训练的中文BERT模型的例子 [SEP]

在代码中，我们首先通过BertTokenizer.from_pretrained("bert-base-chinese")加载了预训练的中文BERT模型。

然后，我们将要处理的文本传递给tokenizer.encode()函数，它将返回一个编码后的文本。在这里，编码的开头会添加特殊的标记[CLS]和[SEP]，用于表示句子的开始和结束。所以最终的编码结果是一个整数列表。

最后，我们使用tokenizer.decode()函数将编码解码成文本。

希望这个例子能帮助到您加载和使用预训练的中文BERT模型！