用Python的load_word2vec_format()函数读取中文词向量表示

发布时间：2024-01-13 09:36:57

使用gensim库可以方便地加载预训练好的Word2Vec模型，包括Word2Vec模型的二进制格式和文本格式。

首先，确保你已经安装了gensim库，可以使用以下命令来安装：

pip install gensim

接下来，你可以下载一个预训练好的中文Word2Vec模型，如[中文维基百科词向量](https://github.com/Embedding/Chinese-Word-Vectors)。该模型是在维基百科语料库上训练的，包含了各种中文词语的词向量表示。

在下载好模型后，你可以使用以下代码来加载该模型：

from gensim.models import KeyedVectors

# 加载模型
model = KeyedVectors.load_word2vec_format('path/to/word2vec.txt', binary=False)

# 查看词向量的维度
vector_size = model.vector_size
print(f"词向量维度: {vector_size}")

# 查看词汇量大小
vocab_size = len(model.index2word)
print(f"词汇量: {vocab_size}")

# 获取词语的词向量
word = '中国'
vector = model[word]
print(f"{word} 的词向量: {vector}")

在上述代码中，load_word2vec_format函数用来加载文本格式的Word2Vec模型。如果要加载二进制格式的模型，则需要将binary参数设置为True。

加载模型后，你可以通过vector_size属性获取词向量的维度，通过index2word属性获取模型中的词汇表。然后，可以使用索引或词语来获取对应的词向量。

除了获取词语的词向量，还可以进行一些更高级的操作，如计算词语之间的相似度，查找与给定词语最相似的词语等。以下是一些示例：

# 计算两个词语的相似度
similarity = model.similarity('中国', '日本')
print(f"中国 和 日本 之间的相似度: {similarity}")

# 查找与给定词语最相似的词语
similar_words = model.similar_by_word('中国', topn=5)
print(f"与 中国 最相似的词语:")
for word, similarity in similar_words:
    print(f"{word}: {similarity}")

similarity方法用来计算两个词语之间的相似度，返回的值越接近1表示相似度越高。

similar_by_word方法用来查找与给定词语最相似的词语，其中的topn参数表示返回相似度最高的前n个词语。

当然，你还可以通过模型进行更多的操作，如获得一个词语的近义词、执行向量的加减等。

希望以上内容能够帮助到你！