使用Python编写一个简单的爬虫程序,获取网页内容并保存到本地文件中
发布时间:2023-12-04 11:58:23
下面是一个简单的爬虫程序示例,使用Python的requests库获取网页内容,并将其保存到本地文件中。
import requests
def save_webpage(url, filename):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求的状态码
if response.status_code == 200:
# 将网页内容写入本地文件
with open(filename, 'w', encoding='utf-8') as f:
f.write(response.text)
print("网页内容保存成功!")
else:
print("请求失败,状态码:", response.status_code)
# 获取谷歌首页并保存到文件中
save_webpage("https://www.google.com", "google.html")
在上述示例中,我们定义了一个save_webpage函数,该函数接受两个参数:url表示要获取内容的网页链接,filename表示要保存到的文件名。
该函数使用requests库的get方法发送GET请求获取网页内容。如果请求的状态码为200(表示请求成功),则将网页内容以UTF-8编码写入指定的文件中。
在示例中,我们调用save_webpage函数来获取谷歌首页的内容,并将其保存到名为google.html的文件中。
要运行该程序,确保已安装requests库,可以使用以下命令进行安装:
pip install requests
然后,将上述代码保存为一个Python文件(例如web_crawler.py),运行该文件即可。
注意:在实际编写爬虫程序时,还需要考虑网站的反爬虫策略和版权问题。爬取网站内容时,请遵守网站的使用规定,并尊重版权。
