Python爬虫入门教程：如何获取网页中的图片链接（src属性）

发布时间：2024-01-18 08:03:13

在进行网页爬取时，获取图片链接是一个常见的需求。本教程将介绍如何使用Python编写一个简单的程序来获取网页中的图片链接，以及如何使用这些链接进行后续操作。

一、准备工作

在开始编写程序之前，我们需要安装以下几个库:

1. requests：用于发送HTTP请求并获取网页内容；

2. BeautifulSoup：用于解析HTML文档；

3. re：用于进行正则表达式的匹配（可选）。

可以使用pip命令来安装这些库：

pip install requests
pip install BeautifulSoup4

二、编写获取图片链接的程序

下面是一个简单的程序示例，用于获取网页中所有图片的链接：

import requests
from bs4 import BeautifulSoup
import re

# 发送HTTP GET请求并获取网页内容
def get_html(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 从HTML文档中提取图片链接
def get_img_links(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 使用正则表达式提取所有img标签中的src属性
    img_links = re.findall(r'<img .*?src="(.*?)"', html)
    return img_links

# 主函数
def main():
    # 网页地址
    url = "https://www.example.com"
    # 发送请求并获取网页内容
    html = get_html(url)
    # 提取图片链接
    img_links = get_img_links(html)
    # 打印图片链接
    for link in img_links:
        print(link)

if __name__ == "__main__":
    main()

三、程序解析

1. 首先，定义了一个名为get_html的函数，用于发送HTTP GET请求并返回网页内容。该函数接受一个URL参数，并使用requests库发送HTTP GET请求获取网页内容；

2. 然后，定义了一个名为get_img_links的函数，用于从HTML文档中提取图片链接。该函数接受一个HTML参数，并使用BeautifulSoup库解析HTML文档，并使用正则表达式来匹配所有img标签中的src属性，然后返回匹配到的图片链接列表；

3. 最后，定义了一个名为main的函数，用于调用上述两个函数，并打印获取到的图片链接。在main函数中，可以将url变量替换为需要爬取的网页地址。

四、使用示例

通过调用上述main函数，可以在控制台中打印出网页中的图片链接。接下来，我们可以根据这些链接进行后续的操作，比如下载这些图片到本地等。

这是一个简单的获取网页中图片链接的示例程序，帮助你入门Python爬虫的基础知识。在实际使用中，可能还需要根据具体的需求进行适当的修改和优化。但是这个例子已经足够帮助你快速上手获取网页中的图片链接。

希望这个教程对你有帮助！