欢迎访问宙启技术站
智能推送

pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()方法对中文文本进行文本生成

发布时间:2024-01-07 16:26:12

pytorch_pretrained_bert.tokenization.BertTokenizer类是Hugging Face提供的用于预训练的BERT模型的文本标记器。它可以将输入的文本转换为BERT模型所需的标记、段落和位置嵌入。下面是一个使用BertTokenizer.from_pretrained()方法进行中文文本标记化的示例:

from pytorch_pretrained_bert import BertTokenizer

# 加载中文BERT模型的标记器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 中文文本
text = "今天天气怎么样?"

# 对文本进行标记化
tokens = tokenizer.tokenize(text)
print(tokens)

输出结果如下:

['今', '天', '天', '气', '怎', '么', '样', '?']

在这个示例中,我们首先通过from_pretrained('bert-base-chinese')加载了一个在中文语料上预训练的BERT模型的标记器。然后,我们定义了一个中文文本text,它的内容是"今天天气怎么样?"。接下来,我们使用tokenizer.tokenize()方法将文本标记化为一个封装了标记的列表。最后,我们打印输出了标记列表。

BertTokenizer.from_pretrained()方法的参数可以是预训练模型的名称,也可以是模型的路径。如果未提供任何参数,则默认加载英文BERT-base模型的标记器。

希望以上内容对你有帮助!