实现HTML到文本转换的工具:HTML2Text()
发布时间:2023-12-26 08:49:59
HTML2Text()是一个工具或库,它可以将HTML文档转换为纯文本格式。以下是一个简单的示例,展示了如何使用该工具进行HTML到文本的转换:
from html2text import HTML2Text
def convert_html_to_text(html):
h = HTML2Text()
# 设置参数,选择要保留的HTML标签
h.ignore_links = True
h.ignore_images = True
h.ignore_tables = True
# 将HTML转换为纯文本
text = h.handle(html)
return text
# 示例HTML文档
html_doc = """
<!DOCTYPE html>
<html>
<head>
<title>HTML to Text Conversion Example</title>
</head>
<body>
<h1>This is a Heading</h1>
<p>This is a paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
"""
# 调用转换函数将HTML转换为文本
output_text = convert_html_to_text(html_doc)
print(output_text)
上述代码使用了一个名为html2text的Python库,通过创建一个HTML2Text对象,我们可以设置转换的参数来选择保留哪些HTML标签。在这个例子中,我们将忽略链接、图像和表格,并将其余的HTML标签转换为纯文本。最后,我们将示例HTML文档传递给convert_html_to_text函数,并打印输出的纯文本结果。
输出结果:
This is a Heading This is a paragraph. Item 1 Item 2 Item 3
这个例子中的HTML文档包含一个标题、一个段落和一个无序列表。经过转换,所有的HTML标签都被移除,并且文本格式保持了原来的结构。
