欢迎访问宙启技术站
智能推送

使用Python中的transformers.BertTokenizerfrom_pretrained()方法加载中文预训练BERT模型

发布时间:2023-12-23 18:18:15

transformers.BertTokenizer.from_pretrained()方法是Hugging Face Transformers库中的一个方法,用于加载预训练的BERT模型的分词器。它将自动从Hugging Face模型中心下载并加载预训练的权重。

首先,确保已安装transformers库。可以使用以下命令安装:

pip install transformers

下面是使用transformers.BertTokenizer.from_pretrained()方法加载中文预训练BERT模型的示例:

from transformers import BertTokenizer

# 加载中文预训练BERT模型的分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 输入文本
text = "我爱自然语言处理!"

# 使用tokenizer对输入文本进行分词
tokens = tokenizer.tokenize(text)

# 打印分词结果
print(tokens)

这段代码首先导入BertTokenizer类,然后使用BertTokenizer.from_pretrained()方法加载中文预训练的BERT模型的分词器。接下来,定义一个输入文本变量,并使用加载的分词器对输入文本进行分词,得到分词结果。最后,打印出分词结果。

上述示例中的bert-base-chinese表示加载的预训练的中文BERT模型,可以根据需要替换成其他可用的模型,例如bert-base-uncased等。

此外,BertTokenizer类还具有其他功能,例如添加特殊标记、编码文本、生成输入的attention mask等。可以参考Hugging Face Transformers文档以了解更多细节和用例。

需要注意的是,加载预训练的BERT模型是需要一定时间和资源的,尤其是 次运行时需要下载并存储模型权重。因此,首次运行时可能会花费一些时间来完成模型的初始化。随后的运行中,模型权重将从本地缓存加载,速度将更快。