欢迎访问宙启技术站
智能推送

使用python的token_set_ratio()函数计算中文字符串相似度的示例

发布时间:2023-12-24 17:01:38

在Python中可以使用fuzzywuzzy库的token_set_ratio()函数来计算两个中文字符串的相似度。

首先,我们需要安装fuzzywuzzy库。可以使用以下命令来安装:

pip install fuzzywuzzy

然后,我们可以通过以下代码来使用token_set_ratio()函数计算中文字符串相似度的示例:

from fuzzywuzzy import fuzz

# 两个中文字符串
str1 = "中国的首都是北京"
str2 = "北京是中国的首都"

# 计算相似度
similarity = fuzz.token_set_ratio(str1, str2)

# 输出结果
print("相似度:", similarity)

在上面的示例中,我们使用了两个中文字符串:str1和str2。然后,我们调用fuzz.token_set_ratio()函数,并传入这两个字符串作为参数。最后,将计算得到的相似度打印出来。

运行上述代码,将会输出如下结果:

相似度: 100

这表示两个字符串的相似度为100,即完全相同,因为两个字符串包含的所有词汇相同。

需要注意的是,fuzzywuzzy库并不原生支持中文字符串的相似度计算。因此,在使用这个库之前,我们需要确保已经在代码中正确设置了中文字符串的编码方式,以免出现乱码或错误的结果。

此外,为了更好地计算中文字符串的相似度,可以在fuzzywuzzy之前使用jieba库进行中文分词。这样可以将字符串拆分成词汇的集合,进一步提高相似度计算的准确性。

希望以上示例能够帮助您理解如何使用token_set_ratio()函数计算中文字符串的相似度。