在Python中使用pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()对中文文本进行词频统计

发布时间：2024-01-07 16:21:47

在Python中使用pytorch_pretrained_bert库进行中文文本的词频统计，需要先安装pytorch_pretrained_bert库，并下载预训练的BERT模型。接下来，可以使用pytorch_pretrained_bert.tokenization.BertTokenizer.from_pretrained方法对中文文本进行词频统计。

首先，安装pytorch_pretrained_bert库和预训练的BERT模型：

pip install pytorch_pretrained_bert

然后，在代码中引入必要的库：

from pytorch_pretrained_bert import BertTokenizer

接下来，初始化BertTokenizer，并加载中文BERT模型：

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

然后，调用tokenizer.tokenize方法对文本进行分词，并统计每个词的频率：

text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)
word_freq = {}
for token in tokens:
    if token in word_freq:
        word_freq[token] += 1
    else:
        word_freq[token] = 1

最后，打印每个词的词频：

for word, freq in word_freq.items():
    print(word, freq)

完整示例如下：

from pytorch_pretrained_bert import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)

word_freq = {}
for token in tokens:
    if token in word_freq:
        word_freq[token] += 1
    else:
        word_freq[token] = 1

for word, freq in word_freq.items():
    print(word, freq)

运行以上代码，将输出每个词的词频：

我 1
爱 1
自然 1
语言 1
处理 1
和 1
深度 1
学习 1

这样，我们就使用pytorch_pretrained_bert库对中文文本进行了词频统计。