使用Python解析XML的基本步骤

发布时间：2023-12-11 16:55:37

解析XML是指将XML文档中的数据提取出来，并以一种易于处理的形式进行操作。Python提供了多种解析XML的库，其中常用的有ElementTree库和lxml库。下面将介绍使用ElementTree库解析XML的基本步骤，并给出一个完整的例子。

首先，需要导入ElementTree库和要解析的XML文件。

import xml.etree.ElementTree as ET

然后，使用ElementTree的parse()函数打开并解析XML文件。

tree = ET.parse('example.xml')

接下来，可以获取XML文件的根节点。

root = tree.getroot()

可以使用root.tag获取根节点的标签，使用root.attrib获取根节点的属性。

print('根节点标签:', root.tag)
print('根节点属性:', root.attrib)

然后，可以遍历根节点的子节点，获取子节点的标签、属性和文本。

for child in root:
    print('子节点标签:', child.tag)
    print('子节点属性:', child.attrib)
    print('子节点文本:', child.text)

还可以通过标签名称和属性进行搜索。

# 搜索所有名为'student'的节点
students = root.findall('student')
for student in students:
    print(student.tag, student.attrib)

# 搜索满足属性条件的节点
for student in root.iter('student'):
    if student.attrib['name'] == 'Tom':
        print(student.attrib)

也可以通过XPath表达式进行搜索。需要导入XPath模块。

from xml.etree.ElementTree import ElementTree

# 定义命名空间和前缀
namespace = 'http://www.w3.org/2005/Atom'
ns = {'ns': namespace}

# 使用XPath定位子节点
link = tree.find('.//ns:link', ns)
print('链接属性:', link.attrib)

值得注意的是，当XML文件较大时，使用iter()函数遍历子节点，而不是先将整个XML树加载到内存中，可以节省内存。

for child in root.iter():
    print('标签:', child.tag)
    print('属性:', child.attrib)
    print('文本:', child.text)

下面是一个完整的例子，解析一个XML文件并打印出其内容：

import xml.etree.ElementTree as ET

# 解析XML文件
tree = ET.parse('example.xml')

# 获取根节点
root = tree.getroot()

# 打印根节点的标签和属性
print('根节点标签:', root.tag)
print('根节点属性:', root.attrib)

# 遍历根节点的子节点
for child in root:
    print('子节点标签:', child.tag)
    print('子节点属性:', child.attrib)
    print('子节点文本:', child.text)

# 搜索名为'student'的节点并打印其属性
students = root.findall('student')
for student in students:
    print(student.tag, student.attrib)

# 使用XPath表达式搜索节点
namespace = 'http://www.w3.org/2005/Atom'
ns = {'ns': namespace}
link = tree.find('.//ns:link', ns)
print('链接属性:', link.attrib)

# 遍历所有节点并打印其标签、属性和文本
for child in root.iter():
    print('标签:', child.tag)
    print('属性:', child.attrib)
    print('文本:', child.text)