欢迎访问宙启技术站
智能推送

用Python快速解析和提取DOCX文件内容

发布时间:2024-01-02 15:04:15

Python提供了多种库可以用来解析和提取DOCX文件内容,最常用的是python-docx库。下面是一个示例代码,演示了如何使用python-docx库来解析和提取DOCX文件内容:

from docx import Document

def extract_docx_content(docx_file):
    # 打开DOCX文件
    doc = Document(docx_file)
    
    # 提取文档中的段落内容
    paragraphs = []
    for paragraph in doc.paragraphs:
        paragraphs.append(paragraph.text)
    
    # 提取文档中的表格内容
    tables = []
    for table in doc.tables:
        table_data = []
        for row in table.rows:
            row_data = []
            for cell in row.cells:
                row_data.append(cell.text)
            table_data.append(row_data)
        tables.append(table_data)
    
    return {
        'paragraphs': paragraphs,
        'tables': tables
    }

在上面的示例中,extract_docx_content函数接受一个DOCX文件路径作为输入,然后使用python-docx库打开文件,并逐个提取文档的段落内容和表格内容。最后,将提取的内容以字典的形式返回。

你可以使用以下代码调用上述函数并打印提取的内容:

docx_file = 'path/to/your/docx/file.docx'
content = extract_docx_content(docx_file)

print('Paragraphs:')
for paragraph in content['paragraphs']:
    print(paragraph)

print('Tables:')
for table in content['tables']:
    print('---')
    for row in table:
        print('\t'.join(row))

上述示例代码将会输出提取的段落内容和表格内容,你可以根据自己的需求对这些内容进行进一步处理和分析。

同时,还有其他一些有用的库可以用来处理DOCX文件,例如python-docx2txt库可以将DOCX文件转换为纯文本,python-pptx库可以用来解析和提取PPTX文件内容等等。在具体项目中,可以根据需求选择合适的库来解析和提取DOCX文件内容。