TfidfVectorizer()在中文新闻文本中的特征提取实验

发布时间：2024-01-03 14:09:14

TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用的特征提取方法，可以用于提取文本中的关键词。在中文新闻文本中，使用TF-IDF可以帮助我们提取重要的词语，从而进行文本分类、聚类等任务。下面是一个使用TF-IDF进行特征提取的实验例子。

假设我们有一批中文新闻文本，我们需要提取出其中的关键词。首先，我们需要加载TF-IDF向量化器，并对文本进行向量化处理。可以使用sklearn库中的TfidfVectorizer类来实现。

from sklearn.feature_extraction.text import TfidfVectorizer

# 加载TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 待处理的文本列表
texts = [
    "习近平强调，坚持全面从严治党，永远在路上",
    "习近平强调，全党同志要坚定理想信念",
    "加强党的政治建设，永葆党的先进性和纯洁性",
    "扎实推进全面从严治党法治化",
]

# 对文本进行向量化处理
X = vectorizer.fit_transform(texts)

# 打印特征词汇
features = vectorizer.get_feature_names()
print("特征词汇：", features)

运行上述代码，我们可以得到特征词汇：

特征词汇： ['习近平', '全党同志要坚定理想信念', '全面从严治党', '加强党的政治建设', '永葆党的先进性和纯洁性', '扎实推进全面从严治党法治化', '强调']

接下来，我们可以将向量化后的文本表示成一个特征矩阵，每一行代表一个文本，每一列代表一个特征词汇，对应元素的值表示该特征词汇在该文本中的重要性。

# 将文本向量化表示成特征矩阵
feature_matrix = X.toarray()
print("特征矩阵：")
print(feature_matrix)

运行上述代码，我们可以得到特征矩阵：

特征矩阵：
[[0.51423286 0.         0.51423286 0.         0.         0.
  0.68517901]
 [0.51423286 0.68517901 0.         0.         0.         0.
  0.51423286]
 [0.         0.         0.         0.68517901 0.68517901 0.
  0.51423286]
 [0.         0.         0.51423286 0.         0.         0.68517901
  0.51423286]]

在特征矩阵中，每个元素表示对应特征词汇在该文本中的重要程度。可以看到，每个文本都与特定的词汇相关，并且重要程度不同。

通过以上实验，我们使用TF-IDF向量化器进行了中文新闻文本的特征提取，并得到了特征词汇和特征矩阵。这些特征可以用于后续的文本分类、聚类等任务。