Java函数如何解析XML文件并提取其中的内容？

发布时间：2023-06-26 09:44:49

Java可以通过使用DOM解析器或SAX解析器来解析XML文件并提取其中的内容。DOM解析器会将整个XML文档加载在内存中，形成一个树形数据结构，然后可以通过调用节点和属性等方法来访问和修改节点的内容。SAX解析器是一种事件驱动的解析器，它不会将整个XML文档加载在内存中，而是在读取到XML元素时触发事件，程序员需要编写事件处理程序来对元素进行处理。

下面分别介绍DOM解析器和SAX解析器的使用方法。

一、使用DOM解析器解析XML文件并提取内容

1. 导入相关类库

首先需要导入相关类库：

import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

2. 创建DOM解析器

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();

3. 加载XML文件并解析

Document document = builder.parse(new File("test.xml"));

其中，"test.xml"为需要解析的XML文件名。

4. 提取节点内容

通过调用节点和属性等方法，可以访问和修改节点的内容。以下是一个例子，用于提取XML文件中所有"student"节点的内容：

NodeList nodeList = document.getElementsByTagName("student");
for(int i = 0; i < nodeList.getLength(); i++) {
    Node node = nodeList.item(i);
    if(node.getNodeType() == Node.ELEMENT_NODE) {
        Element element = (Element)node;
        String id = element.getAttribute("id");
        String name = element.getElementsByTagName("name").item(0).getTextContent();
        String age = element.getElementsByTagName("age").item(0).getTextContent();
        System.out.println("id:" + id + ", name:" + name + ", age:" + age);
    }
}

以上代码通过getElementsByTagName方法获取所有类型为"student"的节点，并通过getAttribute方法获取节点属性，通过getElementsByTagName方法获取指定节点类型的子节点并获取其文本内容。

二、使用SAX解析器解析XML文件并提取内容

1. 导入相关类库

首先需要导入相关类库：

import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.Attributes;

2. 创建SAX解析器

SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser parser = factory.newSAXParser();

3. 创建事件处理程序

class MyHandler extends DefaultHandler {
    boolean isName = false;
    boolean isAge = false;
    public void startElement(String uri, String localName, String qName, Attributes attributes) {
        if(qName.equalsIgnoreCase("name")) {
            isName = true;
        }
        if(qName.equalsIgnoreCase("age")) {
            isAge = true;
        }
        if(attributes.getValue("id") != null) {
            String id = attributes.getValue("id");
            System.out.println("id:" + id);
        }
    }
    public void characters(char ch[], int start, int length) {
        String value = new String(ch, start, length);
        if(isName) {
            System.out.println("name:" + value);
            isName = false;
        }
        if(isAge) {
            System.out.println("age:" + value);
            isAge = false;
        }
    }
}

该事件处理程序用于处理XML文件中的事件。在startElement方法中，判断当前元素的标签名和属性名，在characters方法中获取元素的文本内容。

4. 加载XML文件并解析

parser.parse(new File("test.xml"), new MyHandler());

其中，"test.xml"为需要解析的XML文件名，new MyHandler()表示使用刚才创建的事件处理程序。

总体来说，DOM解析器适用于XML文件比较小或需要修改XML文件内容的情况，SAX解析器适用于XML文件比较大或只需要读取XML文件内容的情况。