采用gensim构建中文文本的词向量模型

发布时间：2024-01-18 18:41:56

Gensim 是一个开源的 Python 库，用于处理和生成文本语料库的词向量模型。它提供了一系列直观和高效的工具，可以用于从大规模文本语料库中生成词向量，以及计算词语之间的语义相似度。

下面是一份使用 Gensim 构建中文文本的词向量模型的示例代码：

1. 导入所需的库

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

2. 加载文本语料

corpus_path = "corpus.txt"  # 文本语料路径
corpus = LineSentence(corpus_path)  # 加载语料

3. 训练词向量模型

model = Word2Vec(sentences=corpus, size=100, window=5, min_count=5, workers=4)

参数说明：

- sentences: 训练语料

- size: 词向量的维度

- window: 当前词与预测词的最大距离

- min_count: 忽略出现次数低于这个值的词

- workers: 并行训练的线程数

4. 使用词向量模型进行操作

获取词向量：

vector = model.wv['词语']

计算两个词的相似度：

similarity = model.wv.similarity('词1', '词2')

找到与指定词最相似的词汇：

similar_words = model.wv.most_similar('词语')

保存和加载模型：

model.save("word2vec.model")  # 保存模型
model = Word2Vec.load("word2vec.model")  # 加载模型

以上是基本的使用示例，你可以根据实际需要调整参数和使用方式。此外，Gensim 还提供了更高级的功能，如模型评估、模型扩展等。

希望以上内容能够帮助你开始使用 Gensim 构建中文文本的词向量模型。祝你使用愉快！