使用python中的token_set_ratio()函数计算字符串相似度
发布时间:2023-12-24 16:58:26
在Python中,可以使用fuzzywuzzy库来计算字符串之间的相似度。这个库提供了一系列的函数,其中包括token_set_ratio()函数用于计算字符串相似度。
首先,需要安装fuzzywuzzy库。可以使用以下命令使用pip进行安装:
pip install fuzzywuzzy
安装完成后,可以导入库并使用token_set_ratio()函数来计算字符串相似度。该函数将根据字符串中的单词集合来计算相似度,具体步骤如下:
from fuzzywuzzy import fuzz # 定义两个字符串 string1 = "Hello World" string2 = "World Hello" # 使用token_set_ratio()函数计算相似度 similarity_ratio = fuzz.token_set_ratio(string1, string2) # 打印相似度 print(similarity_ratio)
在上面的例子中,我们定义了两个字符串"Hello World"和"World Hello"。接着,我们使用token_set_ratio()函数将这两个字符串作为参数传递给它,然后返回相似度的评分。最后,我们打印出相似度结果。
以上代码会输出100,表示两个字符串之间的相似度为100%。
token_set_ratio()函数将字符串拆分为单词,并忽略它们的顺序。然后,它计算一个相似度评分,该评分基于字符串之间共有的单词数量以及它们的位置。这个函数非常适用于需要比较两个字符串是否具有相似的单词集合的情况。
