使用LinkExtractor()从Python中的网页中提取特定类型的链接

发布时间：2024-01-05 18:33:45

LinkExtractor()是Python中一个非常有用的库，它可以用于从网页中提取特定类型的链接。它是Scrapy库的一个重要组件，用于在爬取网页时提取URL。

在使用LinkExtractor()之前，我们需要从scrapy.linkextractors模块中导入它。

from scrapy.linkextractors import LinkExtractor

LinkExtractor类主要有以下几个常用的参数：

- allow：接受字符串(正则表达式)，表示提取链接URL的正则表达式。只有匹配该正则表达式的URL才会被提取。

- deny：接受字符串(正则表达式)，表示拒绝提取链接URL的正则表达式。不匹配该正则表达式的URL才会被提取。

- allow_domains：接受字符串或列表，表示允许提取链接的域名。只有在允许提取域名列表中的URL才会被提取。

- deny_domains：接受字符串或列表，表示拒绝提取链接的域名。不在拒绝提取域名列表中的URL才会被提取。

- restrict_xpaths：接受字符串或列表，表示限制提取链接的XPath表达式。只有XPath表达式匹配的URL才会被提取。

- restrict_css：接受字符串或列表，表示限制提取链接的CSS选择器。只有CSS选择器匹配的URL才会被提取。

- tags：接受字符串或列表，表示限制提取链接的标签。只有指定标签的URL才会被提取。

- attrs：接受字典，表示限制提取链接的属性。只有指定属性的URL才会被提取。

下面我们通过一个例子来演示如何使用LinkExtractor()从网页中提取特定类型的链接。假设我们要爬取一个新闻网站，我们只希望提取其中的文章链接。

import scrapy
from scrapy.linkextractors import LinkExtractor

class MySpider(scrapy.Spider):
    name = "news_spider"
    start_urls = [
        "http://www.example.com/news"
    ]

    def parse(self, response):
        # 使用LinkExtractor提取文章链接
        link_extractor = LinkExtractor(allow=r'/news/\d+\.html')
        links = link_extractor.extract_links(response)

        # 遍历提取的链接
        for link in links:
            yield scrapy.Request(link.url, callback=self.parse_article)

    def parse_article(self, response):
        # 解析文章内容
        title = response.xpath('//h1/text()').get()
        content = response.xpath('//div[@class="content"]/text()').get()

        yield {
            'title': title,
            'content': content
        }

在上面的例子中，我们首先在start_urls中指定了要爬取的起始网页，这里假设我们要爬取一个名为"http://www.example.com/news"的新闻网站。

然后在parse()方法中，我们创建了一个LinkExtractor对象，并指定了正则表达式allow=r'/news/\d+\.html'，这个正则表达式可以匹配到新闻文章的URL。然后我们调用extract_links()方法从response中提取符合条件的链接。

接下来我们遍历提取到的链接，对每个链接发送请求，并将请求回来的网页内容交给parse_article()方法进行解析，解析出文章标题和内容，并将它们以字典的形式yield出来。

这样，我们就可以通过LinkExtractor()从网页中提取特定类型的链接了。