欢迎访问宙启技术站
智能推送

Python中的transformers.BertTokenizerfrom_pretrained()方法用于加载预训练的中文模型

发布时间:2023-12-23 18:17:22

transformers.BertTokenizer.from_pretrained() 方法是用来加载预训练的BERT模型并创建一个BertTokenizer实例的函数。该方法可以用于加载已经训练好的中文BERT模型,并返回一个可以用于分词和编码的tokenizer对象。

以下是一个使用transformers.BertTokenizer.from_pretrained()方法加载中文BERT模型的示例代码:

from transformers import BertTokenizer

# 加载预训练的中文BERT模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 输入文本
text = "今天天气不错"

# 使用tokenizer对文本进行分词和编码
tokens = tokenizer.tokenize(text)
ids = tokenizer.convert_tokens_to_ids(tokens)

# 打印分词结果和编码数据
print("分词结果:", tokens)
print("编码数据:", ids)

在上面的例子中,我们首先使用BertTokenizer.from_pretrained('bert-base-chinese')加载了预训练的中文BERT模型。然后,我们定义了一个要处理的文本("今天天气不错"),并使用tokenizer对文本进行分词和编码。

使用tokenizer.tokenize(text)将文本分词成一系列的tokens(例如,['今', '天', '天', '气', '不', '错']),而tokenizer.convert_tokens_to_ids(tokens)则将这些tokens转换为对应的id序列(例如,[791, 1921, 1921, 3698, 679, 1468])。

最后,我们打印了分词结果和编码数据。

通过这个例子,你可以清楚地了解到如何使用transformers.BertTokenizer.from_pretrained()方法加载预训练的中文BERT模型,并使用tokenizer对文本进行分词和编码。