在Python中使用pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()实现中文分词

发布时间：2024-01-07 16:20:34

在Python中，可以使用pytorch_pretrained_bert库中的BertTokenizerfrom_pretrained函数实现中文分词。下面是一个包含使用例子的1000字示例：

from pytorch_pretrained_bert.tokenization import BertTokenizer

# 加载Bert pre-trained模型的tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 定义一个中文文本
text = "在中国，有着丰富多样的文化。"

# 使用tokenizer对文本进行分词
tokens = tokenizer.tokenize(text)
print("分词结果:", tokens)

该代码先使用BertTokenizer.from_pretrained('bert-base-chinese')函数加载了一个中文预训练的BERT模型的tokenizer。然后，我们定义了一个中文文本，即text变量。在接下来的代码中，我们使用tokenizer.tokenize(text)对文本进行分词。最后，打印出分词结果。

运行上述代码，可以得到以下输出：

分词结果: ['在', '中', '国', '，', '有', '着', '丰', '富', '多', '样', '的', '文', '化', '。']

这里的分词结果是将中文文本分解成了包含单词、标点符号和汉字的列表。