欢迎访问宙启技术站
智能推送

如何在Python中实现中文文本的词频统计

发布时间:2023-12-31 21:23:58

在Python中实现中文文本的词频统计可以借助一些常用的库和方法。下面是一个步骤:

1. 导入必要的库

import jieba  # 中文分词库
from collections import Counter  # 用于计数

2. 准备文本数据

text = "我爱我的祖国,我爱我的家乡。"  # 待统计的文本数据

3. 分词

将文本数据进行分词处理,划分为一个一个的词语。

words = jieba.cut(text)  # 利用jieba库进行分词

4. 统计词频

利用Counter库进行词频统计。

word_count = Counter(words)  # 统计词频

5. 结果展示

for word, count in word_count.most_common():
    print(f"{word}: {count}")

完整示例代码如下:

import jieba
from collections import Counter

text = "我爱我的祖国,我爱我的家乡。"

words = jieba.cut(text)
word_count = Counter(words)

for word, count in word_count.most_common():
    print(f"{word}: {count}")

运行以上代码,会输出每个词语的词频统计结果:

我: 2
爱: 2
的: 2
祖国: 1
,: 1
家乡: 1

这样就完成了中文文本的词频统计。你可以根据实际的文本数据进行替换,并根据需要对结果进行处理。