如何在Python中使用requests库进行网络请求和数据爬取？

发布时间：2023-06-12 10:53:10

在数据挖掘和爬虫任务中，requests库是Python的一个常用库，它允许用户发送网络请求，获取相应内容。这个库直接暴露给程序员一个直观的API，使得使用它极为简单和灵活。

在开始学习如何使用requests库进行网络请求和数据爬取之前，需要安装requests库，使用pip安装很容易，只需要在命令行中输入“pip install requests”就可以了。

接下来，本文将讲解如何基于requests进行get和post请求，以及如何解析响应内容获取所需的数据。

一、GET请求

GET请求用于从指定的资源获取信息，并且不会修改资源的状态，通常用于获取数据。

使用requests库进行GET请求非常简单，只需调用get方法并传递URL即可。下面是一个示例：

import requests

response = requests.get('https://httpbin.org/get')
print(response.text)

其中，URL参数是必需的，它是我们想要获取的资源的URL。此外，response.text输出了该URL返回的HTML内容。

二、POST请求

POST请求用于向指定的URL提交要被处理的数据，这样就可以新增内容、更新内容、删除内容等。

使用requests库进行POST请求也非常简单，只要调用post方法并传递URL和数据即可。下面是一个示例：

import requests

data = {'name': 'John', 'age': 30}
response = requests.post('https://httpbin.org/post', data=data)
print(response.json())

其中，data参数被传递给post方法作为字典。在此示例中，我们向httpbin.org提交了一个POST请求，并且把name和age作为数据发送给后端服务。response.json()返回HTTP响应的JSON编码内容。

三、解析响应

requests库返回的响应是一个HTTP响应实例，包含很多信息，如状态码、头信息和响应内容等。

当我们获取到响应后，可以利用Python内置的json库、BeautifulSoup或正则表达式等工具来解析响应内容。下面是一个示例：

import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.baidu.com')
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.title.string)

在这个示例中，我们首先使用requests获取百度首页的HTML内容。接着，将返回的HTML内容传递给BeaufifulSoup并指定解析器，解析器将HTML转化为一个可遍历的树形结构。最后，我们输出了百度首页的标题。

四、异常处理

requests库有一些常见的异常，如Timeout、ConnectionError或URL错误等。要安全并更可靠地使用requests库，需要适当处理异常。下面是一个简单的异常处理示例：

import requests

try:
    response = requests.get('https://www.baidu.com', timeout=1)
    response.raise_for_status()
except requests.exceptions.HTTPError as error:
    print(error)
except requests.exceptions.Timeout as error:
    print(error)
except requests.exceptions.ConnectionError as error:
    print(error)
except requests.exceptions.RequestException as error:
    print(error)
else:
    print(response.status_code)

在上述示例中，我们尝试向百度发送HTTP GET请求。如果请求成功，则返回响应状态码；否则，如果出现连接、超时或HTTP错误，则抛出异常并输出错误信息。

总结

这篇文章提供了一个快速介绍如何使用requests库进行网络请求和数据爬取。requests库是Python中最流行和最方便的网络请求库之一，非常适合爬虫和数据挖掘的任务。使用requests，可以轻松快速地获取数据，并进行异常处理、数据解析和数据存储等操作。我们相信你现在已经掌握这个库了，很乐意看到你在数据挖掘和爬虫任务中取得成功后的成果。