whoosh.qparser.MultifieldParser()的中文分词与搜索

发布时间：2023-12-26 05:37:14

whoosh.qparser.MultifieldParser()是一个用于多字段搜索的查询解析器。它可以在搜索多个字段时同时对查询进行分词，并返回匹配的文档列表。

以下是使用MultifieldParser进行中文分词和搜索的示例，示例中使用的是中文分词库jieba：

from whoosh import index, qparser
from whoosh.fields import Schema, TEXT, ID
import jieba

# 构建schema，指定要搜索的字段以及字段类型
schema = Schema(title=TEXT(stored=True), content=TEXT(stored=True), url=ID(stored=True))

# 创建索引
ix = index.create_in("indexdir", schema)
writer = ix.writer()
writer.add_document(title="文档标题", content="这是一个示例文档内容", url="http://example.com/doc1")
writer.add_document(title="另一个文档", content="这是另一个示例文档内容", url="http://example.com/doc2")
writer.add_document(title="标题三", content="示例文档的内容三", url="http://example.com/doc3")
writer.commit()

# 创建查询解析器，指定要搜索的索引和要搜索的字段
parser = qparser.MultifieldParser(["title", "content"], schema=ix.schema)

# 对查询进行分词
def chinese_tokenizer(text):
    words = list(jieba.cut_for_search(text))
    return words

# 为查询解析器设置中文分词器
parser.add_plugin(qparser.plugins.TokenPlugin(chinese_tokenizer))

# 输入查询字符串
query_str = "示例文档"

# 解析查询字符串为查询对象
query = parser.parse(query_str)

# 打印查询对象
print(query)

# 在索引中搜索匹配的文档
searcher = ix.searcher()
results = searcher.search(query)

# 遍历搜索结果并打印匹配的文档
for hit in results:
    print(hit)

# 关闭搜索器和索引
searcher.close()
ix.close()

在上述示例中，我们首先创建了一个简单的索引，并添加了一些示例文档。然后，我们创建了一个查询解析器MultifieldParser，指定了要搜索的字段。我们还为查询解析器设置了一个中文分词器chinese_tokenizer，使用了jieba库对查询进行中文分词。

之后，我们输入了一个查询字符串"示例文档"，并将其解析为一个查询对象。接着，我们使用搜索器在索引中搜索匹配的文档，并遍历搜索结果，打印匹配的文档。

最后，我们关闭了搜索器和索引。

请注意，这只是一个简单的示例，你可以根据自己的需求进行调整和扩展。在实际的应用中，你可能还需要添加更多的字段、配置更复杂的搜索选项，并根据具体的需求对查询解析器和分词器进行定制。