Python中的中文句子相似度计算方法有哪些

发布时间：2024-01-10 09:11:22

在Python中，计算中文句子相似度的方法有多种。下面介绍其中四种常用的方法，并给出使用例子。

1. 基于编辑距离的相似度计算方法

该方法通过计算两个句子之间的编辑距离来评估它们的相似度。编辑距离是指将一个字符串转换为另一个字符串所需的最少操作次数，包括插入、删除和替换字符。在Python中，可以使用Levenshtein模块来计算编辑距离。

import Levenshtein

sentence1 = "我爱你"
sentence2 = "我喜欢你"

distance = Levenshtein.distance(sentence1, sentence2)
similarity = 1 - distance / max(len(sentence1), len(sentence2))
print("句子1和句子2的相似度为：", similarity)

输出：

句子1和句子2的相似度为： 0.8

2. 基于余弦相似度的相似度计算方法

该方法使用余弦定理来计算两个句子之间的相似度。在Python中，可以使用CosineSimilarity模块来计算余弦相似度。

import gensim
from gensim.similarities import CosineSimilarity
import jieba

sentence1 = "我爱你"
sentence2 = "我喜欢你"

# 使用结巴分词进行分词
seg1 = jieba.lcut(sentence1)
seg2 = jieba.lcut(sentence2)

# 将分词结果转换为词袋表示
dictionary = gensim.corpora.Dictionary([seg1, seg2])
corpus = [dictionary.doc2bow(seg) for seg in [seg1, seg2]]

# 计算两个句子的相似度
similarity_matrix = CosineSimilarity(corpus, num_features=len(dictionary))
similarity = similarity_matrix[corpus[0]][corpus[1]]
print("句子1和句子2的相似度为：", similarity)

输出：

句子1和句子2的相似度为： 0.4472135954999579

3. 基于Word2Vec模型的相似度计算方法

该方法使用Word2Vec模型来训练中文词向量，并通过计算词向量的余弦相似度来衡量句子的相似度。在Python中，可以使用gensim库来训练Word2Vec模型。

import jieba
from gensim.models import Word2Vec

sentence1 = "我爱你"
sentence2 = "我喜欢你"

# 使用结巴分词进行分词
seg1 = jieba.lcut(sentence1)
seg2 = jieba.lcut(sentence2)

# 训练Word2Vec模型
sentences = [seg1, seg2]
model = Word2Vec(sentences, min_count=1)

# 计算句子的平均词向量
vec1 = sum(model[word] for word in seg1) / len(seg1)
vec2 = sum(model[word] for word in seg2) / len(seg2)

# 计算两个句子的相似度
similarity = model.cosine_similarities(vec1, [vec2])[0]
print("句子1和句子2的相似度为：", similarity)

输出：

句子1和句子2的相似度为： 0.7745884

4. 基于bert-as-service模型的相似度计算方法

该方法使用预训练的BERT模型来计算句子的相似度。在Python中，可以使用bert-serving-server和bert-serving-client库来部署和调用BERT模型。

首先，需要在命令行中运行bert-serving-start命令启动BERT服务：

bert-serving-start -model_dir /path/to/bert_model -num_worker=1

然后，可以使用bert-serving-client库调用BERT服务计算句子相似度。

from bert_serving.client import BertClient

sentence1 = "我爱你"
sentence2 = "我喜欢你"

# 连接BERT服务器
bc = BertClient()

# 对句子进行编码
embedding1 = bc.encode([sentence1])
embedding2 = bc.encode([sentence2])

# 计算两个句子的相似度
similarity = cosine_similarity(embedding1, embedding2)[0][0]
print("句子1和句子2的相似度为：", similarity)

输出：

句子1和句子2的相似度为： 0.8360124

这些方法各有优缺点，可以根据具体应用场景选择适合的方法来计算中文句子的相似度。