Scrapy中LinkExtractor()实现多页面爬取的方法

发布时间：2024-01-07 00:07:13

Scrapy是一个强大的Python开源爬虫框架，而LinkExtractor()是Scrapy自带的一个用于提取链接的工具。它可以根据定义的规则从页面中提取出需要爬取的链接，并且可以实现多页面爬取。

使用LinkExtractor()需要先导入类：

from scrapy.linkextractors import LinkExtractor

LinkExtractor()有几个常用的参数：

- allow：接收一个正则表达式，表示只提取与此表达式匹配的链接。

- deny：接收一个正则表达式，表示过滤掉与此表达式匹配的链接。

- allow_domains：接收一个列表，表示只提取包含在此列表中的域名的链接。

- deny_domains：接收一个列表，表示过滤掉包含在此列表中的域名的链接。

- restrict_xpaths：接收一个XPath表达式，表示只提取与此表达式匹配的链接。

- restrict_css：接收一个CSS选择器，表示只提取与此选择器匹配的链接。

- unique：表示是否去重，默认为True。

下面以一个实际的例子来说明LinkExtractor()的用法。

假设我们要爬取京东手机分类下的所有手机页面，可以使用如下代码：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class JDPhoneSpider(CrawlSpider):
    name = 'jd_phone'
    allowed_domains = ['jd.com']
    start_urls = ['https://list.jd.com/list.html?cat=9987,653,655']

    rules = (
        Rule(LinkExtractor(allow=r'pdu=.*'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        # 解析提取到的具体数据

在这个例子中，我们通过LinkExtractor()提取了所有带有"pdu="参数的链接，即手机的详情页链接。然后通过callback参数将提取出的链接交给parse_item()方法处理。

rules是CrawlSpider的一个属性，它是一个tuple，每个元素都是一个Rule对象，用于定义提取链接的规则。在这个例子中，我们只定义了一个Rule对象，它通过LinkExtractor(allow=r'pdu=.*')提取所有带有"pdu="参数的链接，并将这些链接交给callback='parse_item'参数指定的方法处理。

其中callback参数可以是一个字符串，也可以是一个方法。如果是一个字符串，Scrapy会在当前Spider类中寻找与此名称相对应的方法；如果是一个方法，将会直接使用该方法。

在parse_item方法中，我们可以对提取到的链接进行解析提取数据。这个方法是爬虫的主要处理逻辑。

最后，我们通过执行 scrapy crawl jd_phone 命令就可以启动爬虫进行数据的爬取。

总结：

LinkExtractor()是Scrapy中一个用于提取链接的强大工具，通过LinkExtractor()可以定义各种规则来提取所需的链接，并实现多页面的爬取。通过定义的规则，可以快速、准确地提取到需要的页面链接，从而实现爬虫的目的。在使用LinkExtractor()时，需要注意参数的设置和规则的定义，以便能够提取到所需的链接。