利用HTMLParser.HTMLParser解析带有嵌套结构的HTML列表

发布时间：2024-01-03 08:21:56

HTMLParser是Python标准库中的模块，用于解析HTML文档。它可以根据HTML标签、属性和文本等信息，将HTML文档解析为Python数据结构。HTMLParser模块中的HTMLParser类是一个抽象基类，我们可以通过继承该类并重写其中的方法来实现自定义的HTML解析器。

在HTML中，列表可以使用<ul>和<ol>标签表示，其中<ul>表示无序列表，<ol>表示有序列表。在列表中，每个列表项都是用<li>标签包裹的。而在嵌套结构的HTML列表中，列表项也可以包含子列表。

下面是一个带有嵌套结构的HTML列表的示例：

<ul>
    <li>List item 1</li>
    <li>List item 2</li>
    <li>
        List item 3
        <ul>
            <li>Sub item 1</li>
            <li>Sub item 2</li>
        </ul>
    </li>
    <li>List item 4</li>
</ul>

接下来，我们将使用HTMLParser模块解析上述HTML列表。首先，我们需要创建一个自定义的HTML解析器类，该类需要继承自HTMLParser，并重写其中的方法。

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    
    def __init__(self):
        super().__init__()
        self.list_level = 0  # 列表级别
    
    def handle_starttag(self, tag, attrs):
        if tag == 'ul' or tag == 'ol':
            self.list_level += 1
        elif tag == 'li':
            indent = ' ' * (self.list_level * 4)
            print(f'{indent}List item:', end=' ')
    
    def handle_data(self, data):
        print(data)
    
    def handle_endtag(self, tag):
        if tag == 'ul' or tag == 'ol':
            self.list_level -= 1

在上述代码中，我们定义了一个名为MyHTMLParser的自定义HTML解析器类。在该类的构造方法中，我们初始化了一个列表级别变量(self.list_level)，用于跟踪当前列表的嵌套级别。在handle_starttag方法中，我们根据标签类型，递增列表级别变量的值，并针对<li>标签打印列表项的提示信息。在handle_data方法中，我们直接打印列表项的文本内容。在handle_endtag方法中，我们根据标签类型，递减列表级别变量的值。

接下来，我们可以使用该自定义解析器来解析HTML文档。

parser = MyHTMLParser()
html = """
<ul>
    <li>List item 1</li>
    <li>List item 2</li>
    <li>
        List item 3
        <ul>
            <li>Sub item 1</li>
            <li>Sub item 2</li>
        </ul>
    </li>
    <li>List item 4</li>
</ul>
"""
parser.feed(html)

执行上述代码，我们将得到如下输出：

List item: List item 1
List item: List item 2
List item: List item 3
    List item: Sub item 1
    List item: Sub item 2
List item: List item 4

从输出结果可以看出，我们成功地解析了带有嵌套结构的HTML列表，并正确识别了列表项及其嵌套的子列表。

除了上述示例外，在实际的开发中，我们可能还需要结合正则表达式、CSS选择器等技术来提取和处理特定标签、属性或文本的信息。总之，HTMLParser模块为我们提供了一个灵活且易于使用的解析HTML的工具，可以方便地处理复杂的HTML文档。