使用Python编写一个简单的网页爬虫程序

发布时间：2023-12-04 08:19:48

网页爬虫是一种自动获取互联网上信息的程序，它会按照一定的规则，自动地浏览网页、获取数据并保存。Python有很多强大的库可以用来编写网页爬虫程序，比如BeautifulSoup和Requests库。下面是一个简单的使用Python编写的网页爬虫程序的例子。

# 导入所需的库
import requests
from bs4 import BeautifulSoup

# 定义一个函数，用于获取指定网页的内容
def get_page_content(url):
    # 发送GET请求获取网页内容
    response = requests.get(url)
    # 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.content, 'html.parser')
    # 返回解析后的网页内容
    return soup

# 定义爬取豆瓣电影Top250的函数
def crawl_douban_top250():
    # 定义存储电影信息的列表
    movies = []

    # 循环爬取每一页的电影信息
    for page in range(10):
        # 构造每一页的URL
        url = f'https://movie.douban.com/top250?start={page * 25}'
        # 获取网页内容
        soup = get_page_content(url)
        # 定位电影列表
        movie_list = soup.find(class_='grid_view').find_all('li')
        
        # 循环提取每一部电影的信息
        for movie in movie_list:
            # 解析电影信息
            title = movie.find(class_='title').text.strip()
            rating = movie.find(class_='rating_num').text.strip()
            info = movie.find(class_='inq').text.strip()
            
            # 将电影信息添加到列表中
            movies.append({'title': title, 'rating': rating, 'info': info})
    
    return movies

# 调用函数进行爬取
top250_movies = crawl_douban_top250()

# 打印爬取到的电影信息
for movie in top250_movies:
    print(f"电影名称：{movie['title']}")
    print(f"评分：{movie['rating']}")
    print(f"简介：{movie['info']}")
    print()

这个例子是一个简单的网页爬虫程序，用于爬取豆瓣电影Top250的电影信息。程序首先定义了一个函数get_page_content，用于获取指定网页URL的内容，并使用BeautifulSoup库解析网页内容。然后定义了另一个函数crawl_douban_top250，用于爬取豆瓣电影Top250的电影信息。函数中使用循环来爬取每一页的电影信息，然后使用BeautifulSoup库定位电影信息的位置，解析电影的名称、评分和简介，并将其添加到一个列表中。最后调用这个函数来进行爬取，并打印出爬取到的电影信息。

这只是一个简单的网页爬虫程序示例，实际上网页爬虫可以做很多事情，比如获取新闻、股票数据等。但是在实际使用网页爬虫时，应该注意遵守网站的爬虫规则，不要过度爬取和滥用网站资源，以免给网站带来不必要的负担。另外，有些网站会对爬虫进行一些限制，如设置反爬虫机制，所以在写爬虫程序时需要考虑如何处理这些限制。