在Python中使用pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()对中文文本进行词频统计
发布时间:2024-01-07 16:21:47
在Python中使用pytorch_pretrained_bert库进行中文文本的词频统计,需要先安装pytorch_pretrained_bert库,并下载预训练的BERT模型。接下来,可以使用pytorch_pretrained_bert.tokenization.BertTokenizer.from_pretrained方法对中文文本进行词频统计。
首先,安装pytorch_pretrained_bert库和预训练的BERT模型:
pip install pytorch_pretrained_bert
然后,在代码中引入必要的库:
from pytorch_pretrained_bert import BertTokenizer
接下来,初始化BertTokenizer,并加载中文BERT模型:
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
然后,调用tokenizer.tokenize方法对文本进行分词,并统计每个词的频率:
text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)
word_freq = {}
for token in tokens:
if token in word_freq:
word_freq[token] += 1
else:
word_freq[token] = 1
最后,打印每个词的词频:
for word, freq in word_freq.items():
print(word, freq)
完整示例如下:
from pytorch_pretrained_bert import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)
word_freq = {}
for token in tokens:
if token in word_freq:
word_freq[token] += 1
else:
word_freq[token] = 1
for word, freq in word_freq.items():
print(word, freq)
运行以上代码,将输出每个词的词频:
我 1 爱 1 自然 1 语言 1 处理 1 和 1 深度 1 学习 1
这样,我们就使用pytorch_pretrained_bert库对中文文本进行了词频统计。
