使用pytorch_pretrained_bert.BertTokenizerfrom_pretrained()函数处理中文标题的示例代码
发布时间:2024-01-15 06:41:52
使用pytorch_pretrained_bert库中的BertTokenizer类可以对中文标题进行处理。以下是一个示例代码:
import torch
from pytorch_pretrained_bert import BertTokenizer
# 加载预训练的BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 要处理的中文标题
title = "今天天气怎么样?
# 对标题进行分词
tokens = tokenizer.tokenize(title)
# 打印分词结果
print(tokens)
在上面的代码中,我们首先从bert-base-chinese预训练模型中加载了一个BertTokenizer对象。接下来,我们定义一个中文标题title,然后调用tokenizer.tokenize(title)方法对标题进行分词。最后,我们打印出分词结果。
输出结果将会是一个列表,包含分词后的标题。例如,对于中文标题“今天天气怎么样?”,输出将会是['今', '天', '天', '气', '怎', '么', '样', '?']。
除了分词之外,BertTokenizer还可以进行其他的文本预处理操作,例如将文本转化为Bert的输入格式(token化、转化为索引、添加特殊符号等),具体可以参考pytorch_pretrained_bert库的文档。
