基于Word2Vec算法的中文文本分类与情感分析（Python实现）

发布时间：2024-01-10 15:10:17

Word2Vec是一种用于将词语映射到向量表示的算法，它可以捕捉到词汇之间的语义关系。本文将介绍如何使用Word2Vec算法进行中文文本分类和情感分析，并提供实际的Python实现。

首先，我们需要准备一个用于训练Word2Vec模型的文本数据集。我们将使用一个中文情感分析的数据集作为例子，其中包含了带有情感分类的中文文本。你可以在互联网上找到各种中文数据集，比如豆瓣评论、新闻评论等。在这个例子中，我们将使用一个包含正面评论和负面评论的数据集。

首先，我们需要导入所需的Python库：

import jieba
import re
from gensim.models import Word2Vec
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

接下来，我们需要加载数据集。在这个例子中，数据集是一个文本文件，每一行代表一个样本，由标签和文本内容组成，用制表符分隔开。例如，"0\t这个电影太好看了"表示一个负面评论，而"1\t这个电影真的很差"表示一个正面评论。我们可以使用Python的pandas库来读取数据：

import pandas as pd

df = pd.read_csv('data.txt', sep='\t', header=None, names=['label', 'text'])

然后，我们需要对文本进行分词预处理。在这个例子中，我们将使用jieba库来进行中文分词。首先，我们需要对文本进行清洗，去除掉一些特殊字符和标点符号，然后再进行分词。我们定义一个函数来清洗文本和进行分词：

def preprocess(text):
    # 清洗文本
    text = re.sub('[^\u4e00-\u9fa5]', '', text)
    # 进行分词
    words = jieba.lcut(text)
    return words

# 对每个样本进行分词
df['words'] = df['text'].apply(preprocess)

接下来，我们用分词后的文本来训练Word2Vec模型。我们使用gensim库中的Word2Vec类来进行训练：

# 训练Word2Vec模型
model = Word2Vec(df['words'], size=100, window=5, min_count=1, workers=4)

在这里，我们设置词向量的维度为100，上下文窗口大小为5，词频阈值为1。你可以根据你的实际需求调整这些参数。

接下来，我们将使用训练好的Word2Vec模型来将每个文本转换为向量表示。我们定义一个函数来计算文本向量的平均值：

def text_to_vector(words):
    vectors = []
    for word in words:
        if word in model:
            vectors.append(model[word])
    if not vectors:
        return None
    vector = np.mean(vectors, axis=0)
    return vector

# 计算每个样本的文本向量
df['vector'] = df['words'].apply(text_to_vector)

接下来，我们将使用TF-IDF特征来表示文本。我们使用sklearn库中的TfidfVectorizer类来计算TF-IDF特征：

# 计算TF-IDF特征
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(df['text'])

然后，我们将文本向量和TF-IDF特征组合在一起作为模型的输入。我们使用sklearn库中的train_test_split函数将数据集划分为训练集和测试集：

# 将文本向量和TF-IDF特征作为模型的输入
X1 = np.array(list(df['vector']))
X2 = X_tfidf.toarray()
X = np.concatenate((X1, X2), axis=1)
y = np.array(df['label'])

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

最后，我们使用支持向量机（SVM）来进行训练和预测。我们使用sklearn库中的SVC类来进行训练和预测：

# 训练和预测
model = SVC()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

至此，我们完成了基于Word2Vec算法的中文文本分类和情感分析的实现。你可以根据实际需求调整算法和参数，来提升模型的性能。