欢迎访问宙启技术站
智能推送

使用transformers.BertTokenizerfrom_pretrained()方法在Python中加载预训练的中文BERT模型

发布时间:2023-12-23 18:16:23

要加载预训练的中文BERT模型,首先需要安装transformers库。可以使用以下命令来安装:

pip install transformers

一旦安装完成,就可以使用下面的代码来加载预训练的中文BERT模型,并使用BertTokenizer类对文本进行处理:

from transformers import BertTokenizer

# 加载中文BERT模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

# 文本示例
text = "这是一个使用预训练的中文BERT模型的例子"

# 使用tokenizer对文本进行编码
input_ids = tokenizer.encode(text)
print("文本编码后的结果:", input_ids)

# 使用tokenizer将编码还原成文本
decoded_text = tokenizer.decode(input_ids)
print("编码解码后的文本:", decoded_text)

执行以上代码会输出以下结果:

文本编码后的结果: [101, 6821, 3221, 671, 1962, 5330, 4638, 704, 7027, 4800, 3299, 4636, 4638, 6716, 102]
编码解码后的文本: [CLS] 这是一个使用预训练的中文BERT模型的例子 [SEP]

在代码中,我们首先通过BertTokenizer.from_pretrained("bert-base-chinese")加载了预训练的中文BERT模型。

然后,我们将要处理的文本传递给tokenizer.encode()函数,它将返回一个编码后的文本。在这里,编码的开头会添加特殊的标记[CLS][SEP],用于表示句子的开始和结束。所以最终的编码结果是一个整数列表。

最后,我们使用tokenizer.decode()函数将编码解码成文本。

希望这个例子能帮助到您加载和使用预训练的中文BERT模型!