Python实现的简单网页爬虫案例
发布时间:2023-12-04 10:29:51
Python是一种功能强大的编程语言,它也非常适合用来编写网络爬虫。在本篇文章中,将介绍一个简单的Python爬虫案例,并提供相应的使用例子。
首先,我们需要安装Python的一个第三方库,叫做BeautifulSoup。使用以下命令可以进行安装:
pip install beautifulsoup4
BeautifulSoup是一个用来解析HTML和XML文档的库,我们将使用它来提取网页上的数据。
案例:爬取豆瓣电影Top250的电影名称和评分
首先,我们需要导入所需的模块:
import requests from bs4 import BeautifulSoup
然后,我们需要定义一个函数来爬取网页上的数据:
def get_movies(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movie_items = soup.select('.grid_view li')
for movie_item in movie_items:
movie_title = movie_item.select('.title')[0].string
movie_rating = movie_item.select('.rating_num')[0].string
movie_list.append((movie_title, movie_rating))
return movie_list
这个函数接受一个URL作为参数,并返回一个包含电影名称和评分的列表。我们使用requests库发送HTTP请求获取网页内容,并使用BeautifulSoup库解析HTML文档。
接下来,我们可以调用这个函数来获取豆瓣电影Top250的电影名称和评分。例如,要获取前25部电影的信息,可以使用以下代码:
url = 'https://movie.douban.com/top250'
movies = get_movies(url)
for movie in movies[:25]:
print(movie[0], movie[1])
上述代码将打印出前25部电影的名称和评分。
总结:
通过这个案例,我们可以看到使用Python编写网页爬虫是非常简单的。使用requests库发送HTTP请求,然后使用BeautifulSoup库解析HTML文档,即可提取所需的数据。此外,我们还可以通过制定不同的URL和选择器来获取不同网页上的数据。
这只是一个简单的网页爬虫案例,但你可以根据自己的需要进行扩展和修改。希望这个例子可以帮助你入门Python网络爬虫编程。
