Scrapy中的DropItem()：如何剔除爬取结果中的非法项

发布时间：2024-01-17 07:08:36

Scrapy中的DropItem()函数用于剔除爬取结果中的非法项。当我们在Item Pipeline中处理Item时，可以使用该函数来过滤掉不符合要求的Item，从而保证最终保存的数据的质量和可靠性。

下面我们将通过一个例子来演示如何在Scrapy中使用DropItem()函数。

假设我们爬取的是一个书籍信息的网站，要求保存的书籍信息中必须包含书名、作者和价格三个字段，如果某个书籍的信息缺失了其中的任意一个字段，我们希望将其剔除。

首先，在我们的Item中定义书籍的信息：

import scrapy

class BookItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    price = scrapy.Field()

然后，在自定义的Pipeline中处理Item，使用DropItem()函数进行过滤：

from scrapy.exceptions import DropItem

class BookPipeline(object):
    def process_item(self, item, spider):
        if not item['title'] or not item['author'] or not item['price']:
            raise DropItem("Missing book information: %s" % item)
        return item

在上述代码中，我们首先判断Item是否缺失了书名、作者或价格字段，如果缺失了其中任意一个字段，我们就使用DropItem()函数将其剔除，并抛出一个异常。这样在Item Pipeline中剔除的Item将不会被保存。

接下来，在Spider中生成Item并传递给Pipeline处理：

import scrapy
from myproject.items import BookItem

class BookSpider(scrapy.Spider):
    name = "books"
    start_urls = ['http://books.toscrape.com']

    def parse(self, response):
        books = response.xpath('//article[@class="product_pod"]')
        
        for book in books:
            item = BookItem()
            item['title'] = book.xpath('h3/a/@title').get()
            item['author'] = book.xpath('div[@class="author"]/text()').get()
            item['price'] = book.xpath('div[@class="price_color"]/text()').get()
            yield item

在上述代码中，我们使用XPath提取了书名、作者和价格信息，并将其赋值给对应的Item字段。

最后，在settings.py中启用自定义的Pipeline：

ITEM_PIPELINES = {
    'myproject.pipelines.BookPipeline': 300,
}

这样，当我们运行Scrapy爬虫时，会将缺失书名、作者或价格字段的书籍信息剔除，并抛出异常。

总结一下，我们可以通过Scrapy中的DropItem()函数来剔除爬取结果中的非法项，从而保证最终保存的数据的质量和可靠性。在实际应用中，可以根据具体的需求进行灵活的修改和扩展。