Python编写的基本爬虫运行器

发布时间：2023-12-04 15:56:22

Python是一种非常强大的编程语言，在网络爬虫方面也有很多相应的库和框架可供使用。本文将介绍如何使用Python编写一个基本的爬虫运行器，并提供一个使用例子。

爬虫运行器的作用是调度和管理多个爬虫任务的执行，它可以控制爬虫的调度顺序、并发执行数量以及错误处理等。下面是一个基本的爬虫运行器的框架：

import threading
import queue

class CrawlerRunner:
    def __init__(self, max_concurrency=5):
        self.max_concurrency = max_concurrency
        self.worker_queue = queue.Queue()
        self.workers = []
        self.urls = set()

    def add_worker(self, worker):
        self.worker_queue.put(worker)

    def fetch_url(self, worker):
        url = worker.get_next_url()
        if url not in self.urls:
            self.urls.add(url)
            html = worker.fetch(url)
            new_urls = worker.parse(html)
            for new_url in new_urls:
                self.add_worker(worker.__class__(new_url))

    def worker_thread(self):
        while True:
            worker = self.worker_queue.get()
            self.fetch_url(worker)
            self.worker_queue.task_done()

    def start(self):
        for _ in range(self.max_concurrency):
            t = threading.Thread(target=self.worker_thread)
            t.daemon = True
            t.start()

        self.worker_queue.join()

在以上的代码中，我们定义了一个CrawlerRunner类，它负责管理并发执行的爬虫任务。max_concurrency参数可以指定最大的并发执行数量，默认为5。

在CrawlerRunner类中，我们使用了queue.Queue作为线程安全的任务队列来存储等待执行的爬虫任务。 self.urls是一个集合，用于存储已经访问过的URL，以避免重复访问。

add_worker方法用于添加一个爬虫任务到任务队列中。每个爬虫任务需要实现get_next_url方法，用于获取下一个要爬取的URL，fetch方法，用于通过URL获取网页内容，以及parse方法，用于解析网页并返回新的URL集合。

fetch_url方法是一个递归调用的方法，用于不断获取新的URL，并添加到待执行的任务队列中。

worker_thread方法是一个线程函数，用于执行爬虫任务。它会从任务队列中获取一个任务，并调用fetch_url方法执行。

start方法用于启动运行器，它会创建若干个工作线程，并等待所有任务执行完成。

下面是一个使用例子，用于爬取百度百科上Python词条中的所有URL。首先，我们需要定义一个继承自Crawler类的爬虫类，如下所示：

import requests
from bs4 import BeautifulSoup

class BaiduBaikeCrawler:
    def __init__(self, url):
        self.url = url

    def get_next_url(self):
        return self.url

    def fetch(self, url):
        response = requests.get(url)
        return response.text

    def parse(self, html):
        soup = BeautifulSoup(html, 'html.parser')
        urls = []
        for link in soup.find_all('a'):
            href = link.get('href')
            if href and href.startswith('/'):
                urls.append('https://baike.baidu.com' + href)
        return urls

在BaiduBaikeCrawler类中，我们实现了get_next_url方法，始终返回初始URL，即百度百科Python词条的URL。fetch方法使用requests库发送HTTP请求，并返回响应的网页内容。parse方法使用BeautifulSoup库解析网页，提取其中的URL，并返回。

使用以下代码启动爬虫运行器：

if __name__ == '__main__':
    runner = CrawlerRunner(max_concurrency=10)
    runner.add_worker(BaiduBaikeCrawler('https://baike.baidu.com/item/Python/407313'))
    runner.start()

在上述代码中，我们首先创建了一个CrawlerRunner对象，设置最大并发数为10。然后，将一个初始的BaiduBaikeCrawler对象添加到运行器中。最后，调用start方法启动运行器，即可开始执行爬虫任务。

上述代码将会爬取百度百科Python词条页面中的所有URL，并输出到标准输出中。

通过这个例子，我们可以看到使用Python编写一个基本的爬虫运行器其实并不复杂。我们可以根据实际需求，对其进行拓展和优化，以满足更复杂的爬虫任务。