基于Python的网络编程利器urllib手册

发布时间：2023-12-23 01:24:42

urllib是Python标准库中提供的一个用于处理URL的模块，它包含了一系列处理HTTP、FTP和SMTP等协议的方法和类。urllib库提供了简单方便的API，使得开发者可以轻松地发送请求、解析响应和处理错误等操作，是Python网络编程中必不可少的工具之一。

urllib库主要包含以下几个模块：urllib.request、urllib.error、urllib.parse和urllib.robotparser。每个模块提供了不同的功能，下面我们来详细介绍一下。

1. urllib.request模块

urllib.request模块提供了发送请求、获取响应和处理响应的功能。通过urllib.request.urlopen()方法可以发送HTTP或HTTPS请求并获取服务器响应。

使用示例：

import urllib.request

# 发送GET请求
response = urllib.request.urlopen('https://www.python.org')
print(response.status)  # 获取响应状态码
print(response.headers)  # 获取响应头信息
html = response.read().decode('utf-8')  # 获取网页内容，并指定编码格式

# 发送POST请求
data = {'username': 'admin', 'password': '123456'}
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen('https://www.python.org', data=data)

2. urllib.error模块

urllib.error模块用于处理与urllib.request模块相关的异常。当发送请求出错时，可以使用try-except语句捕获异常并进行错误处理。

使用示例：

import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen('https://www.python.org/404')
except urllib.error.HTTPError as e:
    print('HTTPError:', e.code, e.reason)
except urllib.error.URLError as e:
    print('URLError:', e.reason)

3. urllib.parse模块

urllib.parse模块用于解析URL字符串和构建URL字符串。使用urllib.parse.urlparse()函数可以将URL字符串解析为一个元组，元组中包含了协议、域名、路径等信息。

使用示例：

import urllib.parse

result = urllib.parse.urlparse('http://www.python.org')
print(result.scheme)  # 获取协议
print(result.netloc)  # 获取域名
print(result.path)  # 获取路径
print(result.geturl())  # 获取完整的URL

4. urllib.robotparser模块

urllib.robotparser模块用于解析robots.txt文件，该文件用于规定哪些页面可以被爬取、哪些页面禁止被爬取。通过urllib.robotparser.RobotFileParser()类可以解析robots.txt文件。

使用示例：

import urllib.robotparser

rp = urllib.robotparser.RobotFileParser()
rp.set_url('http://www.example.com/robots.txt')
rp.read()
print(rp.can_fetch('GoogleBot', 'http://www.example.com/test.html'))  # 判断是否允许爬取

除了以上几个模块外，urllib库还提供了一些其他的功能，例如处理Cookie、处理代理等，开发者可以根据实际需要进行选择和使用。

总之，urllib是一个非常强大和实用的网络编程工具，只需要掌握一些基本的使用方法，就能够完成大部分的HTTP请求和响应处理。因此，学习和掌握urllib是Python网络编程的基础。