爬虫函数-Python中常用的爬虫函数
发布时间:2023-06-30 12:47:18
在Python中,爬虫函数是用来编写网页抓取程序的函数。通过使用这些函数,我们可以从网页中提取所需的数据,并进行进一步的处理和分析。接下来,我将介绍一些Python中常用的爬虫函数。
1. requests库的get()函数:这个函数用于发送HTTP GET请求并获取返回的响应。我们可以使用它来获取网页的HTML源代码。例如,下面的代码演示了如何使用get()函数获取百度首页的HTML源代码:
import requests
response = requests.get("https://www.baidu.com")
html = response.text
print(html)
2. BeautifulSoup库的BeautifulSoup()函数:这个函数用于将HTML文档解析成BeautifulSoup对象,以便我们可以方便地提取其中的数据。例如,下面的代码演示了如何使用BeautifulSoup()函数将HTML文档解析成BeautifulSoup对象,并提取所有的链接:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a')
for link in links:
print(link.get('href'))
3. re库的findall()函数:这个函数用于在文本中查找指定的模式,并返回所有匹配的结果。我们可以使用它来提取网页中的特定信息。例如,下面的代码演示了如何使用findall()函数来提取网页中所有图片的URL:
import re
urls = re.findall('img src="(.*?)"', html)
for url in urls:
print(url)
4. csv库的writerow()函数:这个函数用于将数据写入CSV文件。我们可以使用它来保存爬取的数据。例如,下面的代码演示了如何使用writerow()函数将数据写入CSV文件:
import csv
with open('data.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(['Name', 'Age', 'Gender'])
writer.writerow(['Tom', '20', 'Male'])
writer.writerow(['Alice', '25', 'Female'])
5. json库的dump()函数:这个函数用于将数据以JSON格式保存到文件中。我们可以使用它来保存爬取的数据。例如,下面的代码演示了如何使用dump()函数将数据保存为JSON文件:
import json
data = {
'name': 'Tom',
'age': 20,
'gender': 'Male'
}
with open('data.json', 'w') as file:
json.dump(data, file)
这些是Python中常用的爬虫函数。通过使用这些函数,我们可以方便地编写网页抓取程序,并提取所需的数据。同时,我们还可以使用其他库和函数来进行更复杂的爬虫操作,如处理表单、模拟登录等。
