欢迎访问宙启技术站
智能推送

使用Python编写一个简单的爬虫程序,获取网页内容并保存到本地文件中

发布时间:2023-12-04 11:58:23

下面是一个简单的爬虫程序示例,使用Python的requests库获取网页内容,并将其保存到本地文件中。

import requests

def save_webpage(url, filename):
    # 发送GET请求获取网页内容
    response = requests.get(url)
    
    # 检查请求的状态码
    if response.status_code == 200:
        # 将网页内容写入本地文件
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(response.text)
        print("网页内容保存成功!")
    else:
        print("请求失败,状态码:", response.status_code)

# 获取谷歌首页并保存到文件中
save_webpage("https://www.google.com", "google.html")

在上述示例中,我们定义了一个save_webpage函数,该函数接受两个参数:url表示要获取内容的网页链接,filename表示要保存到的文件名。

该函数使用requests库的get方法发送GET请求获取网页内容。如果请求的状态码为200(表示请求成功),则将网页内容以UTF-8编码写入指定的文件中。

在示例中,我们调用save_webpage函数来获取谷歌首页的内容,并将其保存到名为google.html的文件中。

要运行该程序,确保已安装requests库,可以使用以下命令进行安装:

pip install requests

然后,将上述代码保存为一个Python文件(例如web_crawler.py),运行该文件即可。

注意:在实际编写爬虫程序时,还需要考虑网站的反爬虫策略和版权问题。爬取网站内容时,请遵守网站的使用规定,并尊重版权。