欢迎访问宙启技术站
智能推送

使用WordCloud库在Python中绘制中文词云

发布时间:2023-12-18 12:54:58

WordCloud是一个用于生成词云的Python库。它可以根据给定文本中的词频生成一个以词语为形状的图片的词云图。

要绘制中文词云,我们需要先安装jieba库来进行中文分词。jieba是一个非常常用的中文分词库,可以将中文字符串分割成词语。

以下是一个使用WordCloud库绘制中文词云的例子:

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 读取文本文件
with open('sample.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 使用jieba进行中文分词
wordlist = jieba.cut(text)

# 将分词结果转换成字符串
word_string = ' '.join(wordlist)

# 设置词云参数
wc = WordCloud(font_path='msyh.ttc',      # 设置字体
               background_color='white',  # 设置背景颜色
               width=800, height=600,     # 设置图片大小
               max_words=200)             # 设置最大词数量

# 生成词云图像
wordcloud = wc.generate(word_string)

# 显示词云图片
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在上面的例子中,我们首先使用jieba库对中文文本进行分词,然后将分词结果转换成字符串。接下来,我们创建了一个WordCloud对象,并设置了一些参数,如字体、背景颜色、图片大小以及最大的词数量。最后,使用generate()方法生成词云图像,并通过imshow()函数显示图像。

这只是一个简单的例子,你可以根据自己的需求进行更多的定制。比如,你可以设置形状参数,让词云的形状更加有趣;你也可以通过设置颜色参数,让词云更加丰富多彩。总而言之,WordCloud库提供了丰富的参数和方法,让你可以轻松地生成自定义的中文词云图。