欢迎访问宙启技术站
智能推送

使用Python实现一个简单的网页爬虫程序,爬取指定网站的图片

发布时间:2023-12-04 14:12:25

下面是一个简单的Python程序,用于爬取指定网站的图片。

import requests
from bs4 import BeautifulSoup
import re

# 定义一个函数,用于下载图片
def download_image(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

# 定义一个函数,用于爬取网页上的图片链接
def get_image_urls(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    image_urls = []
    img_tags = soup.find_all('img')
    for tag in img_tags:
        src = tag.get('src')
        if src:
            image_urls.append(src)
    return image_urls

# 输入要爬取的网页链接
url = input("请输入要爬取的网页链接:")

# 获取网页上的图片链接
image_urls = get_image_urls(url)

# 遍历图片链接列表,下载图片
for index, image_url in enumerate(image_urls):
    filename = f"image{index}.jpg"
    download_image(image_url, filename)
    print(f"第{index+1}张图片已下载")

print("所有图片已下载完成。")

使用示例:

1. 运行程序后,会提示“请输入要爬取的网页链接:”,此时需要输入要爬取的网站链接。例如,输入https://www.example.com

2. 程序会自动从给定的网站链接中爬取所有的图片链接,并将图片下载到本地。

3. 下载的图片会以imageX.jpg的格式命名,其中X表示图片的顺序。

需要注意的是,这只是一个最基础的网页爬虫程序,实际的网页结构可能会有所不同,需要根据具体的网站结构进行一些修改和适配。另外,爬取网站的图片也要遵守网站的规定以及法律法规,不要进行非法的爬取和使用。