Scrapy爬虫：如何设置用户代理

发布时间：2023-12-27 13:07:48

Scrapy是一个基于Python的开源网络爬虫框架，可以用来快速、高效地抓取互联网上的信息。在进行爬虫过程中，有时需要设置用户代理(User-Agent)来模拟不同的浏览器请求，避免被网站识别为爬虫并限制访问。本文将介绍如何在Scrapy中设置用户代理，并给出一个使用例子。

一、什么是用户代理(User-Agent)

用户代理(User-Agent)是一种标识浏览器身份的字符串，服务器通过判断用户代理来确定返回的内容。网站通常根据不同的浏览器来返回不同的页面版本，因此设置用户代理可以模拟不同浏览器的请求，避免被识别为爬虫。

二、在Scrapy中设置用户代理

Scrapy提供了一个中间件(Middleware)机制，用于在请求(Request)和响应(Response)之间进行处理。我们可以通过编写一个中间件，在请求过程中设置用户代理。

具体实现步骤如下：

1. 创建一个名为middlewares.py的文件，用于编写中间件代码。

2. 在middlewares.py中定义一个类，继承自scrapy.downloadermiddlewares.useragent.UserAgentMiddleware。

3. 重写该类的process_request()方法，在该方法中设置用户代理。

4. 将该中间件添加到Scrapy的中间件设置中。

下面是middlewares.py文件的示例代码：

import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class RandomUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agent_list)
        if user_agent:
            request.headers.setdefault('User-Agent', user_agent)

    user_agent_list = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.3',
        # 更多浏览器代理可以从https://www.whatismybrowser.com/detect/what-is-my-user-agent提取
    ]

在上述代码中，我们定义了一个RandomUserAgentMiddleware类，继承自UserAgentMiddleware类。在process_request()方法中，我们随机选择一个用户代理设置到请求的headers中。

接下来需要将该中间件添加到Scrapy的中间件设置中，可以通过修改settings.py文件实现：

DOWNLOADER_MIDDLEWARES = {
    'project_name.middlewares.RandomUserAgentMiddleware': 543, 
    # project_name为你的项目名称
}

三、使用例子

在上面的代码中，我们已经定义了一些常见的浏览器用户代理，可以根据需要添加更多。接下来，我们可以编写一个Spider来测试用户代理设置是否生效。

新建一个名为example_spider.py的文件，加入以下代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        user_agent = response.request.headers.get('User-Agent')
        self.log(f'User-Agent: {user_agent}')

在这个例子中，我们定义了一个名为example的Spider，初始URL为http://www.example.com。在parse()方法中，我们获取了请求的User-Agent，并通过日志打印出来。

接下来，运行Scrapy项目，可以通过下面的命令启动Spider：

scrapy crawl example

如果一切正常，你将看到类似于以下的输出：

2022-01-01 12:34:56 [example] INFO: User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3

这表明用户代理设置已经生效，并成功模拟了浏览器请求。

总结：

通过编写一个中间件，我们可以在Scrapy中设置用户代理，通过随机选择不同的浏览器用户代理来模拟浏览器请求。这样可以提高爬虫的健壮性，避免被网站屏蔽或限制访问。希望本文能帮助你理解如何在Scrapy中设置用户代理，并给出了一个简单的使用例子。如果有其他疑问，请留言讨论。