欢迎访问宙启技术站
智能推送

快速将HTML转换为纯文本的方法:HTML2Text()

发布时间:2023-12-26 08:47:05

HTML2Text()是一个Python库,用于将HTML转换为纯文本。以下是使用HTML2Text()的示例代码:

import html2text

def convert_html_to_text(html_string):
    h = html2text.HTML2Text()
    h.ignore_links = True  # 忽略所有链接
    h.ignore_images = True  # 忽略所有图像
    h.ignore_tables = True  # 忽略所有表格
    text = h.handle(html_string)
    return text

html_string = "<h1>This is a heading</h1><p>This is a paragraph</p>"
text = convert_html_to_text(html_string)
print(text)

在上面的例子中,我们导入了html2text库,并定义了一个名为convert_html_to_text()的函数,该函数接受一个HTML字符串作为输入,并返回一个纯文本字符串。

在函数内部,我们创建了一个HTML2Text对象,并设置了一些选项来忽略链接、图像和表格。然后,我们使用handle()方法将HTML字符串转换为纯文本。

最后,我们调用convert_html_to_text()函数,并将HTML字符串作为参数传递给它。将返回的纯文本打印出来。

运行上面的代码,将输出以下结果:

This is a heading
This is a paragraph

如你所见,HTML标记已被移除,只剩下纯文本内容。

通过使用HTML2Text库的一些选项,你可以根据需要进一步定制转换过程,例如保留链接或图像。你可以在HTML2Text库的文档中找到更多详细信息和选项。