Python中HTMLParser模块解析HTML文档中的图片链接

发布时间：2024-01-10 09:31:38

HTMLParser模块是Python中的一个内建模块，用于解析HTML文档。它提供了一个HTMLParser类，我们可以通过继承这个类，自定义解析器来处理HTML文档中的各种标签、属性、文本等内容。下面我们以解析HTML文档中的图片链接为例，来说明如何使用HTMLParser模块。

首先，我们需要从HTMLParser模块中导入HTMLParser类：

from html.parser import HTMLParser

然后，我们自定义一个解析器类，继承自HTMLParser类。在这个类中，我们可以重写一些方法来处理HTML文档中的各种内容。为了解析图片链接，我们关注的是标签名为"img"的标签，以及该标签的"src"属性。因此，我们需要重写HTMLParser类的handle_starttag方法：

class MyHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.image_links = []

    def handle_starttag(self, tag, attrs):
        if tag == 'img':
            for attr in attrs:
                if attr[0] == 'src':
                    self.image_links.append(attr[1])

在上述代码中，我们定义了一个image_links列表，用于保存解析到的图片链接。当解析器遇到一个标签开始的时候，会调用handle_starttag方法来处理标签。我们首先判断标签名是否为"img"，然后遍历该标签的属性，找到"src"属性，并将其值添加到image_links列表中。

接下来，我们可以实例化这个解析器类，然后调用它的feed方法来解析HTML文档：

parser = MyHTMLParser()
parser.feed(html)

在上述代码中，html是一个包含HTML文档内容的字符串。调用feed方法后，解析器会解析这个字符串，并调用相应的方法来处理HTML文档中的内容。

最后，我们可以打印解析到的图片链接：

for link in parser.image_links:
    print(link)

这样，我们就可以通过HTMLParser模块解析HTML文档中的图片链接了。

完整的示例代码如下：

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.image_links = []

    def handle_starttag(self, tag, attrs):
        if tag == 'img':
            for attr in attrs:
                if attr[0] == 'src':
                    self.image_links.append(attr[1])

html = '''
<html>
    <body>
        <img src="image1.jpg" alt="Image 1">
        <img src="image2.jpg" alt="Image 2">
        <img src="image3.jpg" alt="Image 3">
    </body>
</html>
'''

parser = MyHTMLParser()
parser.feed(html)

for link in parser.image_links:
    print(link)

以上代码会输出：

image1.jpg
image2.jpg
image3.jpg

这样，我们就成功地使用HTMLParser模块解析HTML文档中的图片链接了。你可以根据需要，进一步扩展解析器类的功能，处理其他标签、属性等内容。