Python中使用HTMLParser解析HTML文档的实例

发布时间：2024-01-10 09:23:24

在Python中，我们可以使用HTMLParser模块来解析HTML文档。HTMLParser是Python标准库中的一个模块，它提供了一个解析器类，可以用于解析HTML文档并提取其中的数据。

下面是一个使用HTMLParser解析HTML文档的例子：

from html.parser import HTMLParser

# 创建一个继承自HTMLParser的子类
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("Start tag:", tag)
        for attr in attrs:
            print("    attr:", attr)

    def handle_endtag(self, tag):
        print("End tag  :", tag)

    def handle_data(self, data):
        print("Data     :", data)

# 创建一个HTMLParser的实例
parser = MyHTMLParser()

# 要解析的HTML文档内容
html = '''
<html>
    <head>
        <title>My Website</title>
    </head>
    <body>
        <h1>Welcome to My Website</h1>
        <p>This is a paragraph.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
    </body>
</html>
'''

# 使用HTMLParser解析HTML文档
parser.feed(html)

在上面的例子中，我们首先创建了一个继承自HTMLParser的子类MyHTMLParser。然后，我们在子类中重写了handle_starttag、handle_endtag和handle_data这三个方法，分别用于处理起始标签、结束标签和文本数据。

在handle_starttag方法中，我们打印了起始标签的名字，并遍历了标签的属性并打印出来。在handle_endtag方法中，我们打印了结束标签的名字。在handle_data方法中，我们打印了文本数据。

接下来，我们创建了一个MyHTMLParser的实例，并将要解析的HTML文档传递给feed方法进行解析。

当我们运行这段代码时，输出结果如下：

Start tag: html
Start tag: head
Start tag: title
Data     : My Website
End tag  : title
End tag  : head
Start tag: body
Start tag: h1
Data     : Welcome to My Website
End tag  : h1
Start tag: p
Data     : This is a paragraph.
End tag  : p
Start tag: ul
Start tag: li
Data     : Item 1
End tag  : li
Start tag: li
Data     : Item 2
End tag  : li
Start tag: li
Data     : Item 3
End tag  : li
End tag  : ul
End tag  : body
End tag  : html

可以看到，HTMLParser按照HTML文档中元素出现的顺序依次调用了handle_starttag、handle_endtag和handle_data这三个方法，并将相应的标签名或数据传递给这些方法。

通过重写HTMLParser类的这些方法，我们可以实现自己的逻辑来处理HTML文档中的元素和数据，从而达到解析HTML文档的目的。

需要注意的是，HTMLParser的解析器是基于事件驱动的，它会在解析的过程中依次调用各个方法。可以通过重写这些方法来实现自定义的处理逻辑。