快速将HTML转换为纯文本的方法:HTML2Text()
发布时间:2023-12-26 08:47:05
HTML2Text()是一个Python库,用于将HTML转换为纯文本。以下是使用HTML2Text()的示例代码:
import html2text
def convert_html_to_text(html_string):
h = html2text.HTML2Text()
h.ignore_links = True # 忽略所有链接
h.ignore_images = True # 忽略所有图像
h.ignore_tables = True # 忽略所有表格
text = h.handle(html_string)
return text
html_string = "<h1>This is a heading</h1><p>This is a paragraph</p>"
text = convert_html_to_text(html_string)
print(text)
在上面的例子中,我们导入了html2text库,并定义了一个名为convert_html_to_text()的函数,该函数接受一个HTML字符串作为输入,并返回一个纯文本字符串。
在函数内部,我们创建了一个HTML2Text对象,并设置了一些选项来忽略链接、图像和表格。然后,我们使用handle()方法将HTML字符串转换为纯文本。
最后,我们调用convert_html_to_text()函数,并将HTML字符串作为参数传递给它。将返回的纯文本打印出来。
运行上面的代码,将输出以下结果:
This is a heading This is a paragraph
如你所见,HTML标记已被移除,只剩下纯文本内容。
通过使用HTML2Text库的一些选项,你可以根据需要进一步定制转换过程,例如保留链接或图像。你可以在HTML2Text库的文档中找到更多详细信息和选项。
