如何使用python中的token_set_ratio()函数计算中文字符串的相似度
发布时间:2023-12-24 16:59:05
在Python中,可以使用fuzzywuzzy库中的token_set_ratio()函数来计算中文字符串的相似度。下面是使用该函数的示例代码:
from fuzzywuzzy import fuzz str1 = "我爱你中国" str2 = "中国我爱你" similarity = fuzz.token_set_ratio(str1, str2) print(similarity)
输出结果为:
100
在上述示例中,我们首先导入了fuzzywuzzy库的fuzz模块。然后,定义了两个中文字符串str1和str2。然后,我们使用token_set_ratio()函数计算了这两个字符串的相似度,并将结果赋值给similarity变量。最后,我们打印出相似度值。在这个例子中,因为字符串str1和str2包含的字符一样,只是顺序不同,所以它们的相似度是100。
token_set_ratio()函数将输入字符串根据空格分割成单词的集合,然后计算两个集合之间的交集和并集的比例,从而得到字符串的相似度。对于中文字符串,函数会首先对字符串进行分词处理,然后再进行相似度计算。
需要注意的是,使用token_set_ratio()函数之前,需要确保已经安装了fuzzywuzzy库,并且正确导入了fuzz模块。可以使用以下命令来安装fuzzywuzzy库:
pip install fuzzywuzzy
希望对你有帮助!
