使用Python中的transformers.BertTokenizerfrom_pretrained()方法加载中文预训练BERT模型

发布时间：2023-12-23 18:18:15

transformers.BertTokenizer.from_pretrained()方法是Hugging Face Transformers库中的一个方法，用于加载预训练的BERT模型的分词器。它将自动从Hugging Face模型中心下载并加载预训练的权重。

首先，确保已安装transformers库。可以使用以下命令安装：

pip install transformers

下面是使用transformers.BertTokenizer.from_pretrained()方法加载中文预训练BERT模型的示例：

from transformers import BertTokenizer

# 加载中文预训练BERT模型的分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 输入文本
text = "我爱自然语言处理！"

# 使用tokenizer对输入文本进行分词
tokens = tokenizer.tokenize(text)

# 打印分词结果
print(tokens)

这段代码首先导入BertTokenizer类，然后使用BertTokenizer.from_pretrained()方法加载中文预训练的BERT模型的分词器。接下来，定义一个输入文本变量，并使用加载的分词器对输入文本进行分词，得到分词结果。最后，打印出分词结果。

上述示例中的bert-base-chinese表示加载的预训练的中文BERT模型，可以根据需要替换成其他可用的模型，例如bert-base-uncased等。

此外，BertTokenizer类还具有其他功能，例如添加特殊标记、编码文本、生成输入的attention mask等。可以参考Hugging Face Transformers文档以了解更多细节和用例。

需要注意的是，加载预训练的BERT模型是需要一定时间和资源的，尤其是次运行时需要下载并存储模型权重。因此，首次运行时可能会花费一些时间来完成模型的初始化。随后的运行中，模型权重将从本地缓存加载，速度将更快。