在Python中使用load_word2vec_format()函数导入中文词向量

发布时间：2024-01-05 04:51:35

在Python中，可以使用gensim库中的load_word2vec_format()函数导入预训练的中文词向量模型。下面是一个使用例子：

from gensim.models import KeyedVectors

# 加载中文词向量文件
word_vectors = KeyedVectors.load_word2vec_format('zh_word2vec.bin', binary=True)

# 获取词向量
vector = word_vectors['中国']
print(vector)

# 寻找最相似的词
similar_words = word_vectors.similar_by_word('中国', topn=5)
for word, similarity in similar_words:
    print(f"{word}: {similarity}")

这个例子假设你已经下载了一个名为zh_word2vec.bin的预训练中文词向量文件。

首先，我们使用load_word2vec_format()函数加载模型。Binary参数设置为True表示模型文件是以二进制格式保存的。

然后，我们可以使用word_vectors['中国']来获取词向量。这将返回一个包含词向量值的NumPy数组。

此外，我们还可以使用similar_by_word()函数找到与给定词最相似的词。topn参数用于指定返回的最相似词的数量。在上述例子中，我们返回了与词'中国'最相似的5个词，然后打印出它们和相似性得分。

通过这个例子，你可以开始使用load_word2vec_format()函数加载中文词向量并进行一些基本的操作和计算。请确保已经下载了适合你的任务和应用领域的预训练词向量模型，并且模型文件的路径和名称正确。