Python编写案例:实现一个简单的网页爬虫
发布时间:2023-12-04 13:52:50
Python编写一个简单的网页爬虫可以使用第三方库BeautifulSoup和requests。
首先,我们需要使用pip install beautifulsoup4安装BeautifulSoup库以及pip install requests安装requests库。
下面是一个简单的网页爬虫的例子,我们将爬取豆瓣电影Top250的电影名称和评分:
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/top250"
# 发送HTTP GET请求
response = requests.get(url)
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")
# 获取电影列表
movies = soup.find_all("div", class_="item")
for movie in movies:
# 获取电影名称
title = movie.find("span", class_="title").text
# 获取电影评分
rating = movie.find("span", class_="rating_num").text
print("电影名称:", title)
print("评分:", rating)
print()
以上代码首先使用requests库发送HTTP GET请求,获取豆瓣电影Top250的页面内容。
然后使用BeautifulSoup库解析HTML内容,通过find_all方法找到所有符合条件的电影信息。在这个例子中,我们要找到所有class为"item"的div标签,这些标签包含了每一部电影的信息。
接着使用find方法分别找到电影名称和评分。在这个例子中,我们要找到class为"title"的span标签和class为"rating_num"的span标签。
最后,打印出电影名称和评分。
运行以上代码,就可以在控制台看到豆瓣电影Top250的电影名称和评分。这个爬虫的功能还比较简单,可以根据自己的需求进行更复杂的网页爬取。
