欢迎访问宙启技术站
智能推送

在Python中使用pytorch_pretrained_bert.tokenization.BertTokenizerfrom_pretrained()对中文文本进行词频统计

发布时间:2024-01-07 16:21:47

在Python中使用pytorch_pretrained_bert库进行中文文本的词频统计,需要先安装pytorch_pretrained_bert库,并下载预训练的BERT模型。接下来,可以使用pytorch_pretrained_bert.tokenization.BertTokenizer.from_pretrained方法对中文文本进行词频统计。

首先,安装pytorch_pretrained_bert库和预训练的BERT模型:

pip install pytorch_pretrained_bert

然后,在代码中引入必要的库:

from pytorch_pretrained_bert import BertTokenizer

接下来,初始化BertTokenizer,并加载中文BERT模型:

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

然后,调用tokenizer.tokenize方法对文本进行分词,并统计每个词的频率:

text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)
word_freq = {}
for token in tokens:
    if token in word_freq:
        word_freq[token] += 1
    else:
        word_freq[token] = 1

最后,打印每个词的词频:

for word, freq in word_freq.items():
    print(word, freq)

完整示例如下:

from pytorch_pretrained_bert import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = "我爱自然语言处理和深度学习"
tokens = tokenizer.tokenize(text)

word_freq = {}
for token in tokens:
    if token in word_freq:
        word_freq[token] += 1
    else:
        word_freq[token] = 1

for word, freq in word_freq.items():
    print(word, freq)

运行以上代码,将输出每个词的词频:

我 1
爱 1
自然 1
语言 1
处理 1
和 1
深度 1
学习 1

这样,我们就使用pytorch_pretrained_bert库对中文文本进行了词频统计。