使用Python实现一个简单的网页爬虫程序,爬取指定网站的图片
发布时间:2023-12-04 14:12:25
下面是一个简单的Python程序,用于爬取指定网站的图片。
import requests
from bs4 import BeautifulSoup
import re
# 定义一个函数,用于下载图片
def download_image(url, filename):
response = requests.get(url)
with open(filename, 'wb') as f:
f.write(response.content)
# 定义一个函数,用于爬取网页上的图片链接
def get_image_urls(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
image_urls = []
img_tags = soup.find_all('img')
for tag in img_tags:
src = tag.get('src')
if src:
image_urls.append(src)
return image_urls
# 输入要爬取的网页链接
url = input("请输入要爬取的网页链接:")
# 获取网页上的图片链接
image_urls = get_image_urls(url)
# 遍历图片链接列表,下载图片
for index, image_url in enumerate(image_urls):
filename = f"image{index}.jpg"
download_image(image_url, filename)
print(f"第{index+1}张图片已下载")
print("所有图片已下载完成。")
使用示例:
1. 运行程序后,会提示“请输入要爬取的网页链接:”,此时需要输入要爬取的网站链接。例如,输入https://www.example.com。
2. 程序会自动从给定的网站链接中爬取所有的图片链接,并将图片下载到本地。
3. 下载的图片会以imageX.jpg的格式命名,其中X表示图片的顺序。
需要注意的是,这只是一个最基础的网页爬虫程序,实际的网页结构可能会有所不同,需要根据具体的网站结构进行一些修改和适配。另外,爬取网站的图片也要遵守网站的规定以及法律法规,不要进行非法的爬取和使用。
