欢迎访问宙启技术站
智能推送

如何使用python中的token_set_ratio()函数计算中文字符串的相似度

发布时间:2023-12-24 16:59:05

在Python中,可以使用fuzzywuzzy库中的token_set_ratio()函数来计算中文字符串的相似度。下面是使用该函数的示例代码:

from fuzzywuzzy import fuzz

str1 = "我爱你中国"
str2 = "中国我爱你"

similarity = fuzz.token_set_ratio(str1, str2)
print(similarity)

输出结果为:

100

在上述示例中,我们首先导入了fuzzywuzzy库的fuzz模块。然后,定义了两个中文字符串str1和str2。然后,我们使用token_set_ratio()函数计算了这两个字符串的相似度,并将结果赋值给similarity变量。最后,我们打印出相似度值。在这个例子中,因为字符串str1和str2包含的字符一样,只是顺序不同,所以它们的相似度是100。

token_set_ratio()函数将输入字符串根据空格分割成单词的集合,然后计算两个集合之间的交集和并集的比例,从而得到字符串的相似度。对于中文字符串,函数会首先对字符串进行分词处理,然后再进行相似度计算。

需要注意的是,使用token_set_ratio()函数之前,需要确保已经安装了fuzzywuzzy库,并且正确导入了fuzz模块。可以使用以下命令来安装fuzzywuzzy库:

pip install fuzzywuzzy

希望对你有帮助!