使用python的token_set_ratio()函数计算中文字符串相似度的示例
发布时间:2023-12-24 17:01:38
在Python中可以使用fuzzywuzzy库的token_set_ratio()函数来计算两个中文字符串的相似度。
首先,我们需要安装fuzzywuzzy库。可以使用以下命令来安装:
pip install fuzzywuzzy
然后,我们可以通过以下代码来使用token_set_ratio()函数计算中文字符串相似度的示例:
from fuzzywuzzy import fuzz
# 两个中文字符串
str1 = "中国的首都是北京"
str2 = "北京是中国的首都"
# 计算相似度
similarity = fuzz.token_set_ratio(str1, str2)
# 输出结果
print("相似度:", similarity)
在上面的示例中,我们使用了两个中文字符串:str1和str2。然后,我们调用fuzz.token_set_ratio()函数,并传入这两个字符串作为参数。最后,将计算得到的相似度打印出来。
运行上述代码,将会输出如下结果:
相似度: 100
这表示两个字符串的相似度为100,即完全相同,因为两个字符串包含的所有词汇相同。
需要注意的是,fuzzywuzzy库并不原生支持中文字符串的相似度计算。因此,在使用这个库之前,我们需要确保已经在代码中正确设置了中文字符串的编码方式,以免出现乱码或错误的结果。
此外,为了更好地计算中文字符串的相似度,可以在fuzzywuzzy之前使用jieba库进行中文分词。这样可以将字符串拆分成词汇的集合,进一步提高相似度计算的准确性。
希望以上示例能够帮助您理解如何使用token_set_ratio()函数计算中文字符串的相似度。
