使用SearchVector()提升中文搜索结果相关性

发布时间：2023-12-22 20:43:43

在Django中，提供了一个Full-Text-Search（全文搜索）功能，可以使用SearchVector()来提升搜索结果的相关性。SearchVector()是Django.contrib.postgres.search模块中的一个函数，用于将多个字段的内容转换为一个向量，以便进行搜索和排序。

首先，需要确保已在项目的设置文件中启用并配置了PostgreSQL数据库，并在模型字段上添加了适当的Gin索引。在本例中，假设我们有一个名为Article的模型，其中包含了一个title字段和一个body字段，并且已经配置了PostgreSQL数据库。

首先，我们需要在模型中导入SearchVector：

from django.contrib.postgres.search import SearchVector

然后，我们可以使用SearchVector()函数来提升搜索结果的相关性，例如：

from django.db.models import Count

# 获取搜索关键词
keyword = '中文搜索'

# 根据搜索关键词计算搜索向量
search_vector = SearchVector('title', weight='A') + SearchVector('body', weight='B')

# 构建搜索查询
query = Article.objects.annotate(rank=SearchRank(search_vector, SearchQuery(keyword))).order_by('-rank')

# 获得搜索结果
result = query.filter(rank__gte=0.3)

# 获取搜索结果数量
count = result.count()

在上述代码中，我们首先定义了一个关键词（keyword），然后使用SearchVector()函数将title字段和body字段的内容转换为一个搜索向量（search_vector）。可以使用weight参数来为不同的字段分配不同的权重。在本例中，我们将title字段的权重设为A，body字段的权重设为B。

接下来，我们可以使用annotate()函数为每个搜索结果计算一个相关性得分（rank）。在这里，使用了SearchRank()函数来计算每个搜索结果的得分，它接受搜索向量和搜索查询作为输入。

通过在查询中使用SearchRank()，我们可以对搜索结果进行排序，并使用order_by()函数按降序排列得分（rank）。在这里，我们通过'-rank'将结果按相关性从高到低排序。

最后，我们可以使用filter()函数过滤掉低得分的搜索结果。在这里，我们将得分（rank）大于等于0.3的结果视为相关结果，并将其赋给result变量。

最后，我们可以使用count()函数获取搜索结果的数量。

需要注意的是，为了使用SearchVector()和SearchRank()函数，需要在模型字段上添加适当的Gin索引。可以使用以下命令来创建Gin索引：

from django.contrib.postgres.indexes import GinIndex

class Article(models.Model):
    title = models.CharField(max_length=100)
    body = models.TextField()

    class Meta:
        indexes = [
            GinIndex(fields=['title', 'body'])
        ]

在本文中，我们介绍了如何使用SearchVector()函数来提升中文搜索结果的相关性。通过将多个字段的内容转换为一个搜索向量，并使用SearchRank()函数对搜索结果进行排序，可以获得更准确和相关的搜索结果。

这种方法不仅适用于中文搜索，也适用于其他语言的全文搜索。SearchVector()函数支持多种类型的字段，包括CharField、TextField和索引字段。只需根据实际需要调整权重和排序方式，即可为用户提供更好的搜索体验。