使用Python编写一个简单的爬虫，爬取指定网页的信息

发布时间：2023-12-04 14:01:57

以下是一个使用Python编写的简单爬虫示例，用于爬取指定网页的信息：

import requests
from bs4 import BeautifulSoup

def get_html(url):
    """发送HTTP请求并返回网页内容"""
    try:
        response = requests.get(url)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except requests.exceptions.RequestException as e:
        print("请求异常:", e)
        return None

def parse_html(html):
    """解析HTML并提取所需信息"""
    try:
        soup = BeautifulSoup(html, 'html.parser')
        # 根据页面结构和需求寻找合适的标签和属性提取信息
        # 下面是一个简单的示例，爬取百度首页的所有链接
        links = soup.find_all('a')
        for link in links:
            print(link.get('href'))
    except Exception as e:
        print("解析异常:", e)
 
def main():
    # 指定要爬取的网页URL
    url = 'http://www.baidu.com'
    html = get_html(url)
    if html:
        parse_html(html)

if __name__ == '__main__':
    main()

在上述示例中，我们使用了第三方库requests来发送HTTP请求，并使用BeautifulSoup进行HTML解析。首先，get_html函数发送HTTP请求并返回网页内容。其中，我们使用requests.get方法发送GET请求，并通过response.raise_for_status检查请求的返回状态，如果请求失败，会抛出一个异常。然后，我们将返回的网页内容的编码方式设置为其推测的编码方式。最后，我们将网页内容作为函数的返回值。

接下来，parse_html函数接受网页内容作为输入，使用BeautifulSoup库对HTML进行解析。在本示例中，我们使用.find_all方法查找所有的<a>标签，并使用.get('href')方法获取链接的URL。最后，我们打印出所有链接的URL。

在main函数中，我们指定要爬取的网页URL，并调用get_html和parse_html函数来获取和解析网页内容。如果成功获取到网页内容，则调用parse_html函数。

最后，我们在__name__ == '__main__'的条件下运行main函数。

请注意，在实际的爬虫开发中，还需要考虑许多其他方面，例如处理网页中的表单、处理反爬虫机制、处理并发请求等。上述示例只是一个简单的爬虫示例，供参考学习用途。在实际应用中，请遵守网站的爬取规则和道德规范，避免对网站造成不必要的负担。