欢迎访问宙启技术站
智能推送

在Python中使用load_word2vec_format()函数导入中文词向量

发布时间:2024-01-05 04:51:35

在Python中,可以使用gensim库中的load_word2vec_format()函数导入预训练的中文词向量模型。下面是一个使用例子:

from gensim.models import KeyedVectors

# 加载中文词向量文件
word_vectors = KeyedVectors.load_word2vec_format('zh_word2vec.bin', binary=True)

# 获取词向量
vector = word_vectors['中国']
print(vector)

# 寻找最相似的词
similar_words = word_vectors.similar_by_word('中国', topn=5)
for word, similarity in similar_words:
    print(f"{word}: {similarity}")

这个例子假设你已经下载了一个名为zh_word2vec.bin的预训练中文词向量文件。

首先,我们使用load_word2vec_format()函数加载模型。Binary参数设置为True表示模型文件是以二进制格式保存的。

然后,我们可以使用word_vectors['中国']来获取词向量。这将返回一个包含词向量值的NumPy数组。

此外,我们还可以使用similar_by_word()函数找到与给定词最相似的词。topn参数用于指定返回的最相似词的数量。在上述例子中,我们返回了与词'中国'最相似的5个词,然后打印出它们和相似性得分。

通过这个例子,你可以开始使用load_word2vec_format()函数加载中文词向量并进行一些基本的操作和计算。请确保已经下载了适合你的任务和应用领域的预训练词向量模型,并且模型文件的路径和名称正确。