如何使用Python的HTMLParser.HTMLParser解析器过滤HTML中的无效标签

发布时间：2024-01-12 09:37:50

Python的HTMLParser模块提供了一个HTML解析器，可以用于从HTML中提取有效的标签和内容。下面是一个使用HTMLParser解析器过滤HTML中无效标签的例子：

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.valid_tags = ['p', 'a', 'img']  # 有效的HTML标签
        self.filtered_html = ''  # 存储过滤后的HTML内容

    def handle_starttag(self, tag, attrs):
        if tag in self.valid_tags:
            self.filtered_html += '<' + tag + '>'
    
    def handle_endtag(self, tag):
        if tag in self.valid_tags:
            self.filtered_html += '</' + tag + '>'
    
    def handle_data(self, data):
        self.filtered_html += data

# 创建HTML解析器对象
parser = MyHTMLParser()

# HTML字符串
html = '<h1>标题</h1><p>这是一个段落。<a href="https://www.example.com">链接</a></p><script>alert("Script tag")</script>'

# 使用解析器解析HTML
parser.feed(html)

# 打印过滤后的HTML内容
print(parser.filtered_html)

在上面的例子中，我们首先创建了一个继承自HTMLParser的自定义解析器类MyHTMLParser。在这个类的__init__方法中，我们定义了有效的HTML标签列表valid_tags和一个用于存储过滤后HTML内容的变量filtered_html。

然后，我们重写了handle_starttag、handle_endtag和handle_data方法。handle_starttag方法在解析到开始标签时被调用，我们通过判断该标签是否在有效标签列表中来决定是否保留该标签。同样，handle_endtag方法在解析到结束标签时被调用，handle_data方法在解析到文本数据时被调用。

最后，我们创建了一个MyHTMLParser对象，并使用feed方法将HTML字符串传递给解析器进行解析。最终，解析器会将过滤后的HTML内容存储在filtered_html变量中，并打印出来。

在上述例子中，我们将过滤标签的条件简单设置为只保留p、a和img标签，其他标签将被过滤掉。你可以根据实际需求修改valid_tags列表的内容来过滤其他的标签，或者添加其他的过滤条件。

需要注意的是，HTMLParser是一个基础的解析器，对复杂的HTML结构可能无法很好地处理。对于处理更复杂的HTML，可以考虑使用Python的第三方库，如BeautifulSoup或lxml等。