利用python函数实现文本的分词和词频统计操作？

发布时间：2023-06-11 11:54:21

文本处理是数据分析的重要组成部分，而分词与词频统计则是其中的基本操作。在Python中，有很多库可以帮助我们实现这些操作，例如nltk、jieba、pattern等。接下来，我们将介绍如何利用这些库实现文本的分词和词频统计操作。

一、文本分词

1. nltk

nltk是Python自然语言处理的一个优秀的工具库， nltk库提供了多种中文分词器，可以完成中文文本的处理。首先需要安装nltk的中文分词器：

pip install nltk

然后进入Python交互模式，执行以下代码：

import nltk
nltk.download('punkt')

这段代码用于下载nltk库的数据文件。下载完成后，我们可以使用nltk库自带的中文分词器来对文本进行分词操作，代码如下：

import nltk
from nltk.tokenize import word_tokenize
 
text = '今天天气真好！'
tokens = word_tokenize(text, language='chinese')
print(tokens)

输出结果为：

['今天', '天气', '真好', '！']

2. jieba

jieba是目前最流行的中文分词器，支持多种分词模式和词性标注，能够满足不同场景下的分词需求。使用前需要先安装：

pip install jieba

分词代码如下：

import jieba
 
text = '今天天气真好！'
tokens = jieba.cut(text)
print(list(tokens))

输出结果为：

['今天', '天气', '真好', '！']

二、文本词频统计

1. 使用Python内置方法

Python内置的collections模块中的Counter类可以用于计算词频，代码如下：

from collections import Counter
 
text = '今天天气真好！今天去了公园。公园里面很多花。'
tokens = text.split()
word_count = Counter(tokens)
print(word_count)

输出结果为：

Counter({'今天': 2, '公园': 2, '天气': 1, '真好！今天去了公园。公园里面很多花。': 1})

该代码会将文本中出现过的词进行计数，并将结果以字典的形式输出。

2. 使用pandas

pandas是一个常用的Python数据处理库，它可以将计数结果以DataFrame形式输出，使数据分析更为方便。代码如下：

import pandas as pd
 
text = '今天天气真好！今天去了公园。公园里面很多花。'
tokens = text.split()
word_count = pd.Series(tokens).value_counts()
print(word_count)

输出结果为：

公园      2
今天      2
很多花。    1
天气      1
dtype: int64

该代码将计数结果以Series形式输出，方便进行进一步的数据分析和可视化。

以上就是利用Python实现文本分词和词频统计的基本方法，可以根据具体需求选择适合自己的库进行操作。