欢迎访问宙启技术站
智能推送

Python中转换HTML为纯文本的html2text模块

发布时间:2023-12-26 08:50:43

html2text是一个用于将HTML文本转换为纯文本的Python模块。它可以很方便地从HTML文件或HTML字符串中提取出文本内容,去除标签、样式和其他HTML元素。

下面是html2text模块的使用示例:

首先,确保已经安装了html2text模块。可以使用pip命令进行安装:

pip install html2text

接下来,导入html2text模块:

import html2text

1. 将HTML文件转换为纯文本

假设我们有一个HTML文件,其中包含了一段带有标签和样式的文本。我们可以使用html2text模块的html2text函数,将HTML文件转换为纯文本。

input_file = 'input.html'
output_file = 'output.txt'

# 读取HTML文件内容
with open(input_file, 'r') as f:
    html_content = f.read()

# 将HTML文件内容转换为纯文本
text_content = html2text.html2text(html_content)

# 将纯文本内容写入输出文件
with open(output_file, 'w') as f:
    f.write(text_content)

上述代码将会读取input.html文件中的HTML内容,并将其转换为纯文本。然后,将转换后的文本内容写入到output.txt文件中。

2. 将HTML字符串转换为纯文本

如果要将HTML字符串转换为纯文本,可以直接调用html2text模块的html2text函数,并将HTML字符串作为参数传入。

html_string = '<p>This is an <strong>example</strong> HTML string.</p>'

# 将HTML字符串转换为纯文本
text_content = html2text.html2text(html_string)

print(text_content)

上述代码将会输出以下结果:

This is an example HTML string.

上述示例展示了如何使用html2text模块将HTML文件或HTML字符串转换为纯文本。根据实际需求,可以对转换后的文本进行进一步处理,如处理换行符、空格等。