欢迎访问宙启技术站
智能推送

使用Python编写一个简单的爬虫程序抓取网页内容

发布时间:2023-12-04 14:14:19

请参考以下代码,这是一个使用Python编写的简单的爬虫程序,用于抓取网页内容。

import requests

def crawl(url):
    try:
        # 发送GET请求获取网页内容
        response = requests.get(url)
        if response.status_code == 200:
            # 打印网页内容
            print(response.text)
    except requests.exceptions.RequestException as e:
        print(e)
    
# 主函数
if __name__ == "__main__":
    # 要抓取的网页的URL
    url = "https://www.example.com"
    crawl(url)

这个爬虫程序使用了Python的requests库,通过发送GET请求获取指定网页的内容。具体的步骤如下:

1. 导入requests库,用于发送HTTP请求。

2. 定义一个crawl函数,它接受一个URL参数,用于指定要抓取的网页的地址。

3. 在crawl函数中,使用requests库的get方法发送GET请求获取网页内容,并将返回的response对象赋值给response变量。

4. 检查response的状态码是否为200,如果是则打印网页内容;否则打印错误信息。

5. 在主函数中,指定要抓取的网页的URL,并调用crawl函数进行抓取。

要运行这个爬虫程序,首先需要确保已安装requests库。可以使用pip命令来安装,如下所示:

pip install requests

接着,将上述代码保存为一个Python文件,例如crawler.py。在命令行中进入保存文件的目录,运行以下命令来执行爬虫程序:

python crawler.py

爬虫程序会发送GET请求获取指定网页的内容,并将其打印在命令行中。你可以根据需要修改代码,例如解析网页内容、保存数据等。