Python中关于STOPWORDS的中文词云制作指南

发布时间：2023-12-25 04:47:59

Python是一种广泛使用的编程语言，可以用于数据处理和可视化。词云是一种可视化技术，用来表示文本数据中出现频率较高的词汇。在Python中，制作词云的过程中常常需要去除一些常用词汇，这些常用词汇被称为STOPWORDS。本文将介绍如何在Python中制作中文词云，并使用STOPWORDS去除一些常用词汇。

首先，我们需要安装一些必要的库。使用以下命令安装所需的库：

pip install wordcloud
pip install jieba
pip install matplotlib

安装完成后，我们就可以开始制作中文词云了。

步是导入所需的库和模块：

import jieba
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

接下来，我们需要读取文本数据。在这个例子中，我们使用了一篇中文新闻报道的文本数据。首先，我们需要将文本数据读取到一个字符串中：

with open('news.txt', 'r', encoding='utf-8') as file:
    text = file.read()

读取完成后，我们需要对文本数据进行分词。这里我们使用了jieba库来进行中文分词。使用以下代码对文本数据进行分词：

text = ' '.join(jieba.cut(text))

分词完成后，我们可以开始制作词云了。首先，我们需要定义一个WordCloud对象，设置一些参数来控制词云的外观。以下是一些常用的参数设置：

- background_color：词云的背景颜色

- max_words：词云中显示的最大词汇数量

- stopwords：需要去除的常用词汇

- font_path：字体文件的路径

wordcloud = WordCloud(
    background_color='white',
    max_words=200,
    stopwords=STOPWORDS,
    font_path='msyh.ttc'
)

在创建WordCloud对象后，我们需要调用其generate方法生成词云。以下是生成词云的代码：

wordcloud.generate(text)

生成词云后，我们可以使用matplotlib库来展示词云。使用以下代码来展示词云：

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

至此，我们已经完成了中文词云的制作。以下是完整的代码：

import jieba
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

with open('news.txt', 'r', encoding='utf-8') as file:
    text = file.read()

text = ' '.join(jieba.cut(text))

wordcloud = WordCloud(
    background_color='white',
    max_words=200,
    stopwords=STOPWORDS,
    font_path='msyh.ttc'
)

wordcloud.generate(text)

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

希望本文能够帮助你理解如何在Python中制作中文词云，并使用STOPWORDS去除一些常用词汇。