欢迎访问宙启技术站
智能推送

使用transformers.BertTokenizerfrom_pretrained()方法在Python中加载中文预训练BERT模型

发布时间:2023-12-23 18:18:56

要加载中文预训练的BERT模型并使用transformers库中的BertTokenizer类进行分词,可以按照以下步骤进行操作。

安装transformers库:

pip install transformers

导入所需的库:

from transformers import BertTokenizer

加载中文预训练的BERT模型及其分词器:

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

现在,我们可以使用tokenizer对文本进行分词了。下面是一个简单的例子:

text = "我爱自然语言处理!"

# 使用tokenizer对文本进行分词
tokens = tokenizer.tokenize(text)
print("分词结果:", tokens)

# 将分词结果转换为BERT模型所需的输入格式
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print("输入ID:", input_ids)

输出结果:

分词结果: ['我', '爱', '自', '然', '语', '言', '处', '理', '!']
输入ID: [2769, 4263, 1962, 2833, 6848, 7360, 6858, 6356, 8013]

在上述代码中,我们首先将文本传递给tokenizer.tokenize()方法进行分词。然后,我们使用tokenizer.convert_tokens_to_ids()方法将分词结果转换为BERT模型所需的输入ID序列。

除了分词外,BertTokenizer还提供其他有用的方法,例如为文本添加special tokens(如[CLS]和[SEP]),或者对文本进行padding以保证输入序列的长度一致。

希望这个例子可以帮助你加载中文预训练的BERT模型并使用其中的BertTokenizer进行分词。