使用transformers.BertTokenizerfrom_pretrained()方法在Python中加载中文预训练BERT模型

发布时间：2023-12-23 18:18:56

要加载中文预训练的BERT模型并使用transformers库中的BertTokenizer类进行分词，可以按照以下步骤进行操作。

安装transformers库：

pip install transformers

导入所需的库：

from transformers import BertTokenizer

加载中文预训练的BERT模型及其分词器：

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

现在，我们可以使用tokenizer对文本进行分词了。下面是一个简单的例子：

text = "我爱自然语言处理！"

# 使用tokenizer对文本进行分词
tokens = tokenizer.tokenize(text)
print("分词结果：", tokens)

# 将分词结果转换为BERT模型所需的输入格式
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print("输入ID：", input_ids)

输出结果：

分词结果： ['我', '爱', '自', '然', '语', '言', '处', '理', '！']
输入ID： [2769, 4263, 1962, 2833, 6848, 7360, 6858, 6356, 8013]

在上述代码中，我们首先将文本传递给tokenizer.tokenize()方法进行分词。然后，我们使用tokenizer.convert_tokens_to_ids()方法将分词结果转换为BERT模型所需的输入ID序列。

除了分词外，BertTokenizer还提供其他有用的方法，例如为文本添加special tokens（如[CLS]和[SEP]），或者对文本进行padding以保证输入序列的长度一致。

希望这个例子可以帮助你加载中文预训练的BERT模型并使用其中的BertTokenizer进行分词。