Python实现网络爬虫实例

发布时间：2023-12-04 13:34:29

网络爬虫是指自动化地获取互联网上的信息的一种程序。Python是一种简单易学、功能强大的编程语言，非常适合用来实现网络爬虫。下面是一个使用Python实现的网络爬虫实例，并附带使用例子。

import requests
from bs4 import BeautifulSoup

def get_html(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except Exception as e:
        print("获取网页内容异常：", e)
        return None

def parse_html(html):
    try:
        soup = BeautifulSoup(html, 'html.parser')
        # 解析网页内容，提取所需信息
        # ...
        return data
    except Exception as e:
        print("解析网页内容异常：", e)
        return None

def save_data(data):
    try:
        # 保存数据到文件或数据库
        # ...
        pass
    except Exception as e:
        print("保存数据异常：", e)

def main():
    url = 'http://example.com'
    html = get_html(url)
    if html:
        data = parse_html(html)
        if data:
            save_data(data)

if __name__ == '__main__':
    main()

上面的代码实现了一个简单的网络爬虫，主要包含了以下几个步骤：

1. 使用requests库发送HTTP请求，获取网页内容。

2. 使用BeautifulSoup库解析网页内容，提取所需的信息。

3. 保存提取到的信息到文件或数据库。

在main函数中，首先设置要爬取的网页的URL，然后调用get_html函数获取网页内容。get_html函数使用requests.get发送get请求，并通过response.raise_for_status()检查请求是否成功。然后将获取到的网页内容的编码设置为response.apparent_encoding，最后返回获取到的网页内容。

接下来，调用parse_html函数解析网页内容，并提取所需的信息。使用BeautifulSoup库对网页内容进行解析，可以使用其中的各种方法和属性来获取需要的数据。具体的解析方法需要根据具体的网页结构来确定。

最后，调用save_data函数将提取到的数据保存到文件或数据库。保存数据的具体方法和格式也需要根据实际需求而定。

使用这个爬虫的例子可以是爬取一个电影网站的电影信息，例如：

def parse_html(html):
    try:
        soup = BeautifulSoup(html, 'html.parser')
        movie_list = soup.find_all('div', class_='movie')
        data = []
        for movie in movie_list:
            title = movie.find('h2').text
            rating = movie.find('span', class_='rating').text
            data.append({'title': title, 'rating': rating})
        return data
    except Exception as e:
        print("解析网页内容异常：", e)
        return None

def save_data(data):
    try:
        with open('movies.txt', 'w') as f:
            for movie in data:
                f.write('电影名称：{}
评分：{}

'.format(movie['title'], movie['rating']))
    except Exception as e:
        print("保存数据异常：", e)

if __name__ == '__main__':
    url = 'https://movie.example.com'
    html = get_html(url)
    if html:
        data = parse_html(html)
        if data:
            save_data(data)

上面的代码中，parse_html函数通过使用find_all方法找到所有class为movie的div元素，然后在每个div元素中找到电影的标题和评分。最后将提取到的电影信息保存到movies.txt文件中。

这只是一个网络爬虫的简单例子，实际使用中可能需要处理更多的异常，添加更多的解析和保存规则，并设置合适的爬取延时，以避免对目标网站造成过大的访问压力。同时，爬取网站的合法性和隐私保护也是要考虑的重要因素。