如何在Python中使用transformers.BertTokenizerfrom_pretrained()方法快速加载中文模型

发布时间：2023-12-23 18:17:51

transformers库提供了一个BertTokenizer类，它可以用于将中文文本转换为Bert模型所需的Token。通过 from_pretrained() 方法，您可以快速加载预训练的Bert模型，并使用它对中文文本进行标记化。以下是如何在Python中使用transformers.BertTokenizer.from_pretrained()方法的示例：

from transformers import BertTokenizer

# 加载预训练的中文Bert模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

# 输入中文文本
text = "今天天气不错"

# 对文本进行标记化
tokens = tokenizer.tokenize(text)
print(tokens)

# 输出结果: ['今', '天', '天', '气', '不', '错']

在上述示例中，首先我们通过 from_pretrained() 方法加载了一个中文Bert模型。这将从Hugging Face的模型存储库中下载并自动缓存模型。然后，我们定义了一个中文文本字符串。接下来，我们使用tokenize()方法将文本标记化为tokens。tokenize()方法将根据Bert模型的词汇表对文本进行分词，并返回文本的tokens列表。

请注意，如果您次运行此代码，可能需要一些时间来下载和缓存所需的预训练模型。一旦模型下载完毕，就可以保存在本地缓存中，以便下次再使用。

BertTokenizer类还提供了其他一些有用的方法和参数，以根据具体需求对文本进行编码和标记化。您可以参考Hugging Face的[文档](https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer)进行更多了解。