在Python中使用load_word2vec_format()函数导入中文词向量
发布时间:2024-01-05 04:51:35
在Python中,可以使用gensim库中的load_word2vec_format()函数导入预训练的中文词向量模型。下面是一个使用例子:
from gensim.models import KeyedVectors
# 加载中文词向量文件
word_vectors = KeyedVectors.load_word2vec_format('zh_word2vec.bin', binary=True)
# 获取词向量
vector = word_vectors['中国']
print(vector)
# 寻找最相似的词
similar_words = word_vectors.similar_by_word('中国', topn=5)
for word, similarity in similar_words:
print(f"{word}: {similarity}")
这个例子假设你已经下载了一个名为zh_word2vec.bin的预训练中文词向量文件。
首先,我们使用load_word2vec_format()函数加载模型。Binary参数设置为True表示模型文件是以二进制格式保存的。
然后,我们可以使用word_vectors['中国']来获取词向量。这将返回一个包含词向量值的NumPy数组。
此外,我们还可以使用similar_by_word()函数找到与给定词最相似的词。topn参数用于指定返回的最相似词的数量。在上述例子中,我们返回了与词'中国'最相似的5个词,然后打印出它们和相似性得分。
通过这个例子,你可以开始使用load_word2vec_format()函数加载中文词向量并进行一些基本的操作和计算。请确保已经下载了适合你的任务和应用领域的预训练词向量模型,并且模型文件的路径和名称正确。
