爬虫函数-Python中常用的爬虫函数

发布时间：2023-06-30 12:47:18

在Python中，爬虫函数是用来编写网页抓取程序的函数。通过使用这些函数，我们可以从网页中提取所需的数据，并进行进一步的处理和分析。接下来，我将介绍一些Python中常用的爬虫函数。

1. requests库的get()函数：这个函数用于发送HTTP GET请求并获取返回的响应。我们可以使用它来获取网页的HTML源代码。例如，下面的代码演示了如何使用get()函数获取百度首页的HTML源代码：

import requests

response = requests.get("https://www.baidu.com")
html = response.text
print(html)

2. BeautifulSoup库的BeautifulSoup()函数：这个函数用于将HTML文档解析成BeautifulSoup对象，以便我们可以方便地提取其中的数据。例如，下面的代码演示了如何使用BeautifulSoup()函数将HTML文档解析成BeautifulSoup对象，并提取所有的链接：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

3. re库的findall()函数：这个函数用于在文本中查找指定的模式，并返回所有匹配的结果。我们可以使用它来提取网页中的特定信息。例如，下面的代码演示了如何使用findall()函数来提取网页中所有图片的URL：

import re

urls = re.findall('img src="(.*?)"', html)
for url in urls:
    print(url)

4. csv库的writerow()函数：这个函数用于将数据写入CSV文件。我们可以使用它来保存爬取的数据。例如，下面的代码演示了如何使用writerow()函数将数据写入CSV文件：

import csv

with open('data.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Name', 'Age', 'Gender'])
    writer.writerow(['Tom', '20', 'Male'])
    writer.writerow(['Alice', '25', 'Female'])

5. json库的dump()函数：这个函数用于将数据以JSON格式保存到文件中。我们可以使用它来保存爬取的数据。例如，下面的代码演示了如何使用dump()函数将数据保存为JSON文件：

import json

data = {
    'name': 'Tom',
    'age': 20,
    'gender': 'Male'
}

with open('data.json', 'w') as file:
    json.dump(data, file)

这些是Python中常用的爬虫函数。通过使用这些函数，我们可以方便地编写网页抓取程序，并提取所需的数据。同时，我们还可以使用其他库和函数来进行更复杂的爬虫操作，如处理表单、模拟登录等。