如何在Python中实现中文文本的词频统计
发布时间:2023-12-31 21:23:58
在Python中实现中文文本的词频统计可以借助一些常用的库和方法。下面是一个步骤:
1. 导入必要的库
import jieba # 中文分词库 from collections import Counter # 用于计数
2. 准备文本数据
text = "我爱我的祖国,我爱我的家乡。" # 待统计的文本数据
3. 分词
将文本数据进行分词处理,划分为一个一个的词语。
words = jieba.cut(text) # 利用jieba库进行分词
4. 统计词频
利用Counter库进行词频统计。
word_count = Counter(words) # 统计词频
5. 结果展示
for word, count in word_count.most_common():
print(f"{word}: {count}")
完整示例代码如下:
import jieba
from collections import Counter
text = "我爱我的祖国,我爱我的家乡。"
words = jieba.cut(text)
word_count = Counter(words)
for word, count in word_count.most_common():
print(f"{word}: {count}")
运行以上代码,会输出每个词语的词频统计结果:
我: 2 爱: 2 的: 2 祖国: 1 ,: 1 家乡: 1
这样就完成了中文文本的词频统计。你可以根据实际的文本数据进行替换,并根据需要对结果进行处理。
