欢迎访问宙启技术站
智能推送

快速比较中文字符串相似度的方法:python的token_set_ratio()函数

发布时间:2023-12-24 16:59:22

在Python中,可以使用fuzzywuzzy库中的token_set_ratio()函数来快速比较中文字符串的相似度。token_set_ratio()函数使用了token的集合匹配算法来计算两个字符串的相似度。下面是一个使用token_set_ratio()函数的例子:

首先,确保已经安装了fuzzywuzzy库,可以使用以下命令来安装:

pip install fuzzywuzzy

接下来,导入fuzzywuzzy库中的fuzz模块,并使用token_set_ratio()函数来比较两个中文字符串的相似度。

from fuzzywuzzy import fuzz

str1 = "我喜欢吃苹果"
str2 = "我爱吃苹果"

# 使用token_set_ratio()函数比较字符串相似度
similarity_ratio = fuzz.token_set_ratio(str1, str2)

print(similarity_ratio)

上述代码将输出一个表示相似度的整数值(0-100之间的范围)。在这个例子中,输出结果为83,表示两个字符串的相似度为83%。

token_set_ratio()函数将对输入的字符串进行分词,并计算两个字符串之间共有的token数量与总token数量之比,来判断字符串的相似度。它将忽略字符串的顺序,并且不考虑token的重复出现。

需要注意的是,使用token_set_ratio()函数需要安装python-Levenshtein包。如果你还没有安装该包,可以使用以下命令来安装:

pip install python-Levenshtein

希望这个例子能够帮助你快速比较中文字符串的相似度。