欢迎访问宙启技术站
智能推送

使用load_word2vec_format()函数加载中文Word2Vec模型的简单例子

发布时间:2023-12-19 04:33:29

加载中文Word2Vec模型可以使用gensim库的load_word2vec_format()函数。这个函数可以直接从Word2Vec模型文件加载词向量。

下面是一个简单的例子:

from gensim.models import KeyedVectors

# 加载中文Word2Vec模型
model = KeyedVectors.load_word2vec_format('chinese_word2vec.bin', binary=True)

# 获取某个词的词向量
vector = model['中国']
print(vector)

# 计算两个词的相似度
similarity = model.similarity('男人', '女人')
print(similarity)

# 查找与某个词最相似的词
most_similar_words = model.most_similar('北京')
print(most_similar_words)

在上面的代码中,首先使用KeyedVectors类的load_word2vec_format()函数加载中文Word2Vec模型文件'chinese_word2vec.bin',其中bin参数为True表示模型文件是以二进制形式保存的。

然后,可以使用model对象来获取某个词的词向量。在上面的例子中,model['中国']返回该词的300维词向量。

接下来,可以使用model对象的similarity()函数计算两个词的相似度。在上面的例子中,model.similarity('男人', '女人')返回这两个词的相似度。

最后,可以使用model对象的most_similar()函数查找与某个词最相似的词。在上面的例子中,model.most_similar('北京')返回与'北京'最相似的词及相似度。

需要注意的是,上面的例子假设已经有一个名为'chinese_word2vec.bin'的中文Word2Vec模型文件,并以二进制形式保存。实际使用时,可以根据自己的数据和需求加载相应的模型文件。