欢迎访问宙启技术站
智能推送

Python编写案例:实现一个简单的网页爬虫

发布时间:2023-12-04 13:52:50

Python编写一个简单的网页爬虫可以使用第三方库BeautifulSoup和requests。

首先,我们需要使用pip install beautifulsoup4安装BeautifulSoup库以及pip install requests安装requests库。

下面是一个简单的网页爬虫的例子,我们将爬取豆瓣电影Top250的电影名称和评分:

import requests
from bs4 import BeautifulSoup

url = "https://movie.douban.com/top250"

# 发送HTTP GET请求
response = requests.get(url)

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")

# 获取电影列表
movies = soup.find_all("div", class_="item")

for movie in movies:
    # 获取电影名称
    title = movie.find("span", class_="title").text
    
    # 获取电影评分
    rating = movie.find("span", class_="rating_num").text
    
    print("电影名称:", title)
    print("评分:", rating)
    print()

以上代码首先使用requests库发送HTTP GET请求,获取豆瓣电影Top250的页面内容。

然后使用BeautifulSoup库解析HTML内容,通过find_all方法找到所有符合条件的电影信息。在这个例子中,我们要找到所有class为"item"的div标签,这些标签包含了每一部电影的信息。

接着使用find方法分别找到电影名称和评分。在这个例子中,我们要找到class为"title"的span标签和class为"rating_num"的span标签。

最后,打印出电影名称和评分。

运行以上代码,就可以在控制台看到豆瓣电影Top250的电影名称和评分。这个爬虫的功能还比较简单,可以根据自己的需求进行更复杂的网页爬取。