如何使用Python编写一个简单的网页爬虫程序

发布时间：2023-12-04 11:52:47

编写一个简单的网页爬虫程序需要以下几个步骤：

1. 导入所需的模块：在Python中，使用requests和BeautifulSoup模块来处理网页请求和解析HTML内容。所以，首先需要安装这两个库，并通过import关键字将它们导入到程序中。

2. 发送网络请求获取网页内容：使用requests模块的get()方法发送网络请求，并将返回的响应保存在一个变量中。

3. 解析HTML内容：使用BeautifulSoup模块解析网页的HTML内容，将其转换为可以按照标签、类名或其他属性进行查找的对象。

4. 提取所需的数据：通过使用BeautifulSoup对象的方法和属性，可以提取出网页中的所需数据，例如标题、链接、文本内容等。

5. 存储数据：将提取到的数据存储到合适的位置，可以是文件、数据库或其他数据存储方式。

下面是一个简单的例子，演示如何使用Python编写一个简单的网页爬虫程序。这个例子使用爬取豆瓣电影Top250的电影信息作为示例。

import requests
from bs4 import BeautifulSoup

# 发送网络请求获取网页内容
def get_html(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'}
    response = requests.get(url, headers=headers)
    return response.text

# 解析HTML内容，提取电影信息
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    movie_list = soup.find_all('div', class_='item')
    movies = []
    for movie in movie_list:
        rank = movie.find('em').get_text()
        title = movie.find('span', class_='title').get_text()
        rating = movie.find('span', class_='rating_num').get_text()
        movies.append({'rank': rank, 'title': title, 'rating': rating})
    return movies

# 存储电影信息到文件
def save_movies(movies):
    with open('movies.txt', 'w', encoding='utf-8') as f:
        for movie in movies:
            f.write(f"排名：{movie['rank']}  标题：{movie['title']}  评分：{movie['rating']}
")

# 主函数，执行爬虫程序
def main():
    url = 'https://movie.douban.com/top250'
    html = get_html(url)
    movies = parse_html(html)
    save_movies(movies)
    print('爬取完成！')

if __name__ == '__main__':
    main()

上述代码中，首先通过get_html()函数发送网络请求，获取豆瓣电影Top250的网页内容。然后，使用parse_html()函数解析HTML内容，提取出电影的排名、标题和评分等信息，并将其以字典的形式存储在一个列表中。最后，使用save_movies()函数将电影信息存储到名为movies.txt的文件中。

通过执行main()函数，就可以执行整个爬虫程序，并将电影信息保存到文件中。

以上是一个简单的例子，用于演示如何使用Python编写一个简单的网页爬虫程序。实际的网页爬虫程序可能会更加复杂，需要考虑到异常处理、反爬机制、多线程等问题。但是这个例子提供了一个基本的框架和思路，可以作为进一步学习和开发的起点。