快速比较中文字符串相似度的方法:python的token_set_ratio()函数
发布时间:2023-12-24 16:59:22
在Python中,可以使用fuzzywuzzy库中的token_set_ratio()函数来快速比较中文字符串的相似度。token_set_ratio()函数使用了token的集合匹配算法来计算两个字符串的相似度。下面是一个使用token_set_ratio()函数的例子:
首先,确保已经安装了fuzzywuzzy库,可以使用以下命令来安装:
pip install fuzzywuzzy
接下来,导入fuzzywuzzy库中的fuzz模块,并使用token_set_ratio()函数来比较两个中文字符串的相似度。
from fuzzywuzzy import fuzz str1 = "我喜欢吃苹果" str2 = "我爱吃苹果" # 使用token_set_ratio()函数比较字符串相似度 similarity_ratio = fuzz.token_set_ratio(str1, str2) print(similarity_ratio)
上述代码将输出一个表示相似度的整数值(0-100之间的范围)。在这个例子中,输出结果为83,表示两个字符串的相似度为83%。
token_set_ratio()函数将对输入的字符串进行分词,并计算两个字符串之间共有的token数量与总token数量之比,来判断字符串的相似度。它将忽略字符串的顺序,并且不考虑token的重复出现。
需要注意的是,使用token_set_ratio()函数需要安装python-Levenshtein包。如果你还没有安装该包,可以使用以下命令来安装:
pip install python-Levenshtein
希望这个例子能够帮助你快速比较中文字符串的相似度。
