Python中转换HTML为纯文本的html2text模块
发布时间:2023-12-26 08:50:43
html2text是一个用于将HTML文本转换为纯文本的Python模块。它可以很方便地从HTML文件或HTML字符串中提取出文本内容,去除标签、样式和其他HTML元素。
下面是html2text模块的使用示例:
首先,确保已经安装了html2text模块。可以使用pip命令进行安装:
pip install html2text
接下来,导入html2text模块:
import html2text
1. 将HTML文件转换为纯文本
假设我们有一个HTML文件,其中包含了一段带有标签和样式的文本。我们可以使用html2text模块的html2text函数,将HTML文件转换为纯文本。
input_file = 'input.html'
output_file = 'output.txt'
# 读取HTML文件内容
with open(input_file, 'r') as f:
html_content = f.read()
# 将HTML文件内容转换为纯文本
text_content = html2text.html2text(html_content)
# 将纯文本内容写入输出文件
with open(output_file, 'w') as f:
f.write(text_content)
上述代码将会读取input.html文件中的HTML内容,并将其转换为纯文本。然后,将转换后的文本内容写入到output.txt文件中。
2. 将HTML字符串转换为纯文本
如果要将HTML字符串转换为纯文本,可以直接调用html2text模块的html2text函数,并将HTML字符串作为参数传入。
html_string = '<p>This is an <strong>example</strong> HTML string.</p>' # 将HTML字符串转换为纯文本 text_content = html2text.html2text(html_string) print(text_content)
上述代码将会输出以下结果:
This is an example HTML string.
上述示例展示了如何使用html2text模块将HTML文件或HTML字符串转换为纯文本。根据实际需求,可以对转换后的文本进行进一步处理,如处理换行符、空格等。
