欢迎访问宙启技术站
智能推送

Python实现的简单网页爬虫案例

发布时间:2023-12-04 10:29:51

Python是一种功能强大的编程语言,它也非常适合用来编写网络爬虫。在本篇文章中,将介绍一个简单的Python爬虫案例,并提供相应的使用例子。

首先,我们需要安装Python的一个第三方库,叫做BeautifulSoup。使用以下命令可以进行安装:

pip install beautifulsoup4

BeautifulSoup是一个用来解析HTML和XML文档的库,我们将使用它来提取网页上的数据。

案例:爬取豆瓣电影Top250的电影名称和评分

首先,我们需要导入所需的模块:

import requests
from bs4 import BeautifulSoup

然后,我们需要定义一个函数来爬取网页上的数据:

def get_movies(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    movie_list = []
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    movie_items = soup.select('.grid_view li')
    for movie_item in movie_items:
        movie_title = movie_item.select('.title')[0].string
        movie_rating = movie_item.select('.rating_num')[0].string
        movie_list.append((movie_title, movie_rating))
    return movie_list

这个函数接受一个URL作为参数,并返回一个包含电影名称和评分的列表。我们使用requests库发送HTTP请求获取网页内容,并使用BeautifulSoup库解析HTML文档。

接下来,我们可以调用这个函数来获取豆瓣电影Top250的电影名称和评分。例如,要获取前25部电影的信息,可以使用以下代码:

url = 'https://movie.douban.com/top250'
movies = get_movies(url)
for movie in movies[:25]:
    print(movie[0], movie[1])

上述代码将打印出前25部电影的名称和评分。

总结:

通过这个案例,我们可以看到使用Python编写网页爬虫是非常简单的。使用requests库发送HTTP请求,然后使用BeautifulSoup库解析HTML文档,即可提取所需的数据。此外,我们还可以通过制定不同的URL和选择器来获取不同网页上的数据。

这只是一个简单的网页爬虫案例,但你可以根据自己的需要进行扩展和修改。希望这个例子可以帮助你入门Python网络爬虫编程。