在Python中使用pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()实现中文分词
发布时间:2024-01-07 16:20:34
在Python中,可以使用pytorch_pretrained_bert库中的BertTokenizerfrom_pretrained函数实现中文分词。下面是一个包含使用例子的1000字示例:
from pytorch_pretrained_bert.tokenization import BertTokenizer
# 加载Bert pre-trained模型的tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 定义一个中文文本
text = "在中国,有着丰富多样的文化。"
# 使用tokenizer对文本进行分词
tokens = tokenizer.tokenize(text)
print("分词结果:", tokens)
该代码先使用BertTokenizer.from_pretrained('bert-base-chinese')函数加载了一个中文预训练的BERT模型的tokenizer。然后,我们定义了一个中文文本,即text变量。在接下来的代码中,我们使用tokenizer.tokenize(text)对文本进行分词。最后,打印出分词结果。
运行上述代码,可以得到以下输出:
分词结果: ['在', '中', '国', ',', '有', '着', '丰', '富', '多', '样', '的', '文', '化', '。']
这里的分词结果是将中文文本分解成了包含单词、标点符号和汉字的列表。
