欢迎访问宙启技术站
智能推送

使用transformers.BertTokenizerfrom_pretrained()方法在Python中加载预训练的中文模型

发布时间:2023-12-23 18:15:31

要加载预训练的中文BERT模型,需要使用transformers库中的BertTokenizer类的from_pretrained()方法。这个方法可以从预训练的模型中加载预训练好的词汇和标记器。下面是一个使用示例,加载预训练的中文BERT模型并将一个中文句子进行分词。

首先,确保已安装transformers库,可以使用以下命令安装:

pip install transformers

下面是一个加载预训练的中文BERT模型并使用BertTokenizer进行分词的例子:

from transformers import BertTokenizer

# 加载预训练的中文BERT模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

# 要进行分词的中文句子
sentence = "你好,世界!"

# 使用BertTokenizer进行分词
tokens = tokenizer.tokenize(sentence)
print("分词结果:", tokens)

# 输出:
# 分词结果: ['你', '好', ',', '世', '界', '!']

在上面的例子中,我们首先导入了BertTokenizer类。然后,我们使用from_pretrained()方法加载了预训练的中文BERT模型,其中"bert-base-chinese"是预训练模型的名称。

接下来,我们定义了一个中文句子作为sentence变量的值。然后,我们使用tokenizer.tokenize()方法对句子进行分词,并将结果存储在tokens变量中。

最后,我们打印出分词结果。在这个例子中,句子"你好,世界!"被拆分成了['你', '好', ',', '世', '界', '!']。

通过使用BertTokenizerfrom_pretrained()方法,您可以方便地加载预训练的中文BERT模型,并对中文句子进行分词。这对于中文自然语言处理任务非常有用。请确保您已经下载了相应的预训练模型,以便能够正常加载和使用它们。