Python实战爬虫开发指南：urllib库学习笔记

发布时间：2023-12-23 01:26:44

Python是一种简单易学的编程语言，广泛应用于各种领域，包括爬虫开发。在爬虫开发中，一个重要的任务就是从网页上获取数据。Python提供了多种库来帮助开发者实现这一目标，其中之一就是urllib库。

urllib库是Python内置的HTTP请求库，通过它可以实现发送HTTP请求、处理HTTP响应以及其他一些与HTTP相关的操作。下面是一些urllib库的常用功能和使用例子。

1.发送GET请求

通过urllib库，可以轻松地发送GET请求，并处理服务器返回的响应数据。下面是一个使用urllib库发送GET请求的例子：

import urllib.request

# 发送GET请求
response = urllib.request.urlopen("http://www.example.com")

# 获取响应数据
data = response.read()
print(data)

在上述代码中，通过urlopen函数发送GET请求，传入目标URL作为参数。urlopen函数会返回一个response对象，通过读取response对象的read方法，可以获取响应数据。

2.发送POST请求

与发送GET请求类似，使用urllib库也可以发送POST请求。下面是一个使用urllib库发送POST请求的例子：

import urllib.request
import urllib.parse

# POST请求的参数
data = urllib.parse.urlencode({"name": "John", "age": 25}).encode()

# 发送POST请求
response = urllib.request.urlopen("http://www.example.com", data=data)

# 获取响应数据
data = response.read()
print(data)

在上述代码中，我们首先通过urlencode函数将参数转换为URL编码的形式，然后通过encode方法将其转换为字节流，最后将其作为data参数传递给urlopen函数。

3.处理异常

在实际开发中，网络请求可能会出现各种异常情况，例如网络连接超时、服务器返回错误等。urllib库提供了URLError和HTTPError两个异常类用于处理这些异常情况。下面是一个处理异常的例子：

import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen("http://www.example.com")
except urllib.error.URLError as e:
    print(e.reason)
except urllib.error.HTTPError as e:
    print(e.code)

在上述代码中，我们使用try-except语句来捕获异常，并使用e.reason和e.code来获取异常的原因和状态码。

4.其他功能

urllib库还提供了其他一些功能，例如设置请求头、处理页面重定向、处理HTTP认证等。下面是一个设置请求头的例子：

import urllib.request

# 创建请求对象
request = urllib.request.Request("http://www.example.com")

# 设置请求头
request.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3")

# 发送请求
response = urllib.request.urlopen(request)

# 获取响应数据
data = response.read()
print(data)

在上述代码中，我们通过add_header方法设置请求头，其中User-Agent字段用于模拟浏览器发送请求。

以上是urllib库的一些常用功能和使用例子。通过学习和使用urllib库，我们可以轻松地从网页上获取数据，为爬虫开发提供了强大的工具和技术支持。