我什么时候应该选择 SAX 而不是 StAX？

发布于 2024-12-06 13:32:58 字数 378 浏览 0 评论 0原文

与构建树结构（如 DOM 解析器）的解析器相比，SAX 和 StAX 等流式 xml 解析器速度更快、内存效率更高。 SAX 是一个推送解析器，这意味着它是观察者模式（也称为侦听器模式）的实例。 SAX 首先出现，但随后出现了 StAX——一个拉式解析器，这意味着它基本上像迭代器一样工作。

您可以在任何地方找到为什么更喜欢 StAX 而不是 SAX 的原因，但通常归结为：“它更容易使用”。

在 JAXP 的 Java 教程中，StAX 被模糊地描述为 DOM 和 SAX 之间的中间：“它比 SAX 更容易，比 DOM 更高效”。然而，我从未发现任何线索表明 StAX 会比 SAX 更慢或内存效率更低。

所有这些让我想知道：有什么理由选择 SAX 而不是 StAX 吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡墨 2024-12-13 13:32:58

概述
XML 文档是分层文档，其中相同的元素名称和名称空间可能出现在多个位置，具有不同的含义，并且深度不定（递归）。通常，解决大问题的方法是将其分解为小问题。在 XML 解析的上下文中，这意味着使用特定于 XML 的方法来解析 XML 的特定部分。例如，一段逻辑将解析一个地址：

<Address>
    <Street>Odins vei</Street>    
    <Building>4</Building>
    <Door>b</Door>
</Address>

即您将有一个方法

AddressType parseAddress(...); // A

或

void parseAddress(...); // B

逻辑中的某个位置，采用 XML 输入参数并返回一个对象（稍后可以从字段中获取 B 的结果）。

SAX
SAX“推动”XML 事件，由您决定 XML 事件属于您的程序/数据中的位置。

// method in stock SAX handler
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException
    // .. your logic here for start element
}

对于“Building”起始元素，您需要确定您实际上正在解析地址，然后将 XML 事件路由到负责解释地址的方法。

StAX
StAX“拉取”XML 事件，由您决定在程序/数据中的何处接收 XML 事件。

// method in standard StAX reader
int event = reader.next();
if(event == XMLStreamConstants.START_ELEMENT) {
    // .. your logic here for start element
}

当然，您总是希望在其工作是解释地址的方法中接收“Building”事件。

讨论
SAX 和 StAX 之间的区别在于推和拉。在这两种情况下，都必须以某种方式处理解析状态。

这对于 SAX 来说是典型的方法 B，对于 StAX 来说是典型的方法 A。此外，SAX 必须为 B 提供单独的 XML 事件，而 StAX 可以为 A 提供多个事件（通过传递 XMLStreamReader 实例）。

因此，B 首先检查解析的先前状态，然后处理每个单独的 XML 事件，然后存储状态（在字段中）。方法 A 可以通过多次访问 XMLStreamReader 一次处理所有 XML 事件，直到满意为止。

结论
StAX 允许您根据 XML 结构构建解析（数据绑定）代码；因此，就 SAX 而言，StAX 的程序流中隐含“状态”，而在 SAX 中，对于大多数事件调用，您始终需要保留某种状态变量 + 根据该状态路由流。

我推荐 StAX 用于除最简单的文档之外的所有文档。而是稍后转向 SAX 作为优化（但那时您可能希望转为二进制）。

使用 StAX 进行解析时遵循此模式：

public MyDataBindingObject parse(..) { // provide input stream, reader, etc

        // set up parser
        // read the root tag to get to level 1
        XMLStreamReader reader = ....;

        do {
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT) {
              // check if correct root tag
              break;
            }

            // add check for document end if you want to

        } while(reader.hasNext());

        MyDataBindingObject object = new MyDataBindingObject();
        // read root attributes if any

        int level = 1; // we are at level 1, since we have read the document header

        do {
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT) {
                level++;
                // do stateful stuff here

                // for child logic:
                if(reader.getLocalName().equals("Whatever1")) {
                    WhateverObject child = parseSubTreeForWhatever(reader);
                    level --; // read from level 1 to 0 in submethod.

                    // do something with the result of subtree
                    object.setWhatever(child);
                }

                // alternatively, faster
                if(level == 2) {
                    parseSubTreeForWhateverAtRelativeLevel2(reader);
                    level --; // read from level 1 to 0 in submethod.

                    // do something with the result of subtree
                    object.setWhatever(child);
                }


            } else if(event == XMLStreamConstants.END_ELEMENT) {
                level--;
                // do stateful stuff here, too
            }

        } while(level > 0);

        return object;
}

因此子方法使用大约相同的方法，即计数级别：

private MySubTreeObject parseSubTree(XMLStreamReader reader) throws XMLStreamException {

    MySubTreeObject object = new MySubTreeObject();
    // read element attributes if any

    int level = 1;
    do {
        int event = reader.next();
        if(event == XMLStreamConstants.START_ELEMENT) {
            level++;
            // do stateful stuff here

            // for child logic:
            if(reader.getLocalName().equals("Whatever2")) {
                MyWhateverObject child = parseMySubelementTree(reader);
                level --; // read from level 1 to 0 in submethod.

                // use subtree object somehow
                object.setWhatever(child);
            }

            // alternatively, faster, but less strict
            if(level == 2) {
              MyWhateverObject child = parseMySubelementTree(reader);
                level --; // read from level 1 to 0 in submethod.

                // use subtree object somehow
                object.setWhatever(child);
            }


        } else if(event == XMLStreamConstants.END_ELEMENT) {
            level--;
            // do stateful stuff here, too
        }

    } while(level > 0);

    return object;
}

然后最终您达到您将阅读基本类型的级别。

private MySetterGetterObject parseSubTree(XMLStreamReader reader) throws XMLStreamException {

    MySetterGetterObject myObject = new MySetterGetterObject();
    // read element attributes if any

    int level = 1;
    do {
        int event = reader.next();
        if(event == XMLStreamConstants.START_ELEMENT) {
            level++;

            // assume <FirstName>Thomas</FirstName>:
            if(reader.getLocalName().equals("FirstName")) {
               // read tag contents
               String text = reader.getElementText()
               if(text.length() > 0) {
                    myObject.setName(text)
               }
               level--;

            } else if(reader.getLocalName().equals("LastName")) {
               // etc ..
            } 


        } else if(event == XMLStreamConstants.END_ELEMENT) {
            level--;
            // do stateful stuff here, too
        }

    } while(level > 0);

    // verify that all required fields in myObject are present

    return myObject;
}

这非常简单，不存在任何误解的余地。只需记住正确地递减级别：

A. 在您期望字符但在某个应包含字符的标记中得到 END_ELEMENT 后（在上面的模式中）：

<Name>Thomas</Name>

was 相反

<Name></Name>

对于丢失的子树也是如此，您明白了。

B. 在调用子解析方法之后，该方法在开始元素上调用，并在相应的结束元素之后返回，即解析器比方法调用之前低一级（上述模式）。

请注意，这种方法如何完全忽略“可忽略的”空白，以获得更稳健的实现。

解析器
对于大多数功能，请使用 Woodstox 或 Aaalto-xml 以提高速度。

Overview
XML documents are hierarchical documents, where the same element names and namespaces might occur in several places, having different meaning, and in infinitive depth (recursive). As normal, the solution to big problems, is to divide them into small problems. In the context of XML parsing, this means parsing specific parts of XML in methods specific to that XML. For example, one piece of logic would parse an address:

<Address>
    <Street>Odins vei</Street>    
    <Building>4</Building>
    <Door>b</Door>
</Address>

i.e. you would have a method

AddressType parseAddress(...); // A

void parseAddress(...); // B

somewhere in your logic, taking XML inputs arguments and returning an object (result of B can be fetched from a field later).

SAX
SAX 'pushes' XML events, leaving it up to you to determine where the XML events belong in your program / data.

// method in stock SAX handler
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException
    // .. your logic here for start element
}

In case of an 'Building' start element, you would need to determine that you are actually parsing an Address and then route the XML event to the method whose job it is to interpret Address.

StAX
StAX 'pulls' XML events, leaving it up to you to determine where in your program / data to receive the XML events.

// method in standard StAX reader
int event = reader.next();
if(event == XMLStreamConstants.START_ELEMENT) {
    // .. your logic here for start element
}

Of course, you would always want to receive a 'Building' event in in the method whose job it is to interpret Address.

Discussion
The difference between SAX and StAX is that of push and pull. In both cases, the parse state must be handled somehow.

This translates to method B as typical for SAX, and method A for StAX. In addition, SAX must give B individual XML events, while StAX can give A multiple events (by passing an XMLStreamReader instance).

Thus B first check the previous state of the parsing and then handle each individual XML event and then store the state (in a field). Method A can just handle the XML events all at once by accessing the XMLStreamReader multiple times until satisfied.

Conclusion
StAX lets you structure your parsing (data-binding) code according to the XML structure; so in relation to SAX, the 'state' is implicit from the program flow for StAX, whereas in SAX, you always need to preserve some kind of state variable + route the flow according to that state, for most event calls.

I recommend StAX for all but the simplest documents. Rather move to SAX as an optimization later (but you'll probably want to go binary by then).

Follow this pattern when parsing using StAX:

public MyDataBindingObject parse(..) { // provide input stream, reader, etc

        // set up parser
        // read the root tag to get to level 1
        XMLStreamReader reader = ....;

        do {
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT) {
              // check if correct root tag
              break;
            }

            // add check for document end if you want to

        } while(reader.hasNext());

        MyDataBindingObject object = new MyDataBindingObject();
        // read root attributes if any

        int level = 1; // we are at level 1, since we have read the document header

        do {
            int event = reader.next();
            if(event == XMLStreamConstants.START_ELEMENT) {
                level++;
                // do stateful stuff here

                // for child logic:
                if(reader.getLocalName().equals("Whatever1")) {
                    WhateverObject child = parseSubTreeForWhatever(reader);
                    level --; // read from level 1 to 0 in submethod.

                    // do something with the result of subtree
                    object.setWhatever(child);
                }

                // alternatively, faster
                if(level == 2) {
                    parseSubTreeForWhateverAtRelativeLevel2(reader);
                    level --; // read from level 1 to 0 in submethod.

                    // do something with the result of subtree
                    object.setWhatever(child);
                }


            } else if(event == XMLStreamConstants.END_ELEMENT) {
                level--;
                // do stateful stuff here, too
            }

        } while(level > 0);

        return object;
}

So the submethod uses about the same approach, i.e. counting level:

private MySubTreeObject parseSubTree(XMLStreamReader reader) throws XMLStreamException {

    MySubTreeObject object = new MySubTreeObject();
    // read element attributes if any

    int level = 1;
    do {
        int event = reader.next();
        if(event == XMLStreamConstants.START_ELEMENT) {
            level++;
            // do stateful stuff here

            // for child logic:
            if(reader.getLocalName().equals("Whatever2")) {
                MyWhateverObject child = parseMySubelementTree(reader);
                level --; // read from level 1 to 0 in submethod.

                // use subtree object somehow
                object.setWhatever(child);
            }

            // alternatively, faster, but less strict
            if(level == 2) {
              MyWhateverObject child = parseMySubelementTree(reader);
                level --; // read from level 1 to 0 in submethod.

                // use subtree object somehow
                object.setWhatever(child);
            }


        } else if(event == XMLStreamConstants.END_ELEMENT) {
            level--;
            // do stateful stuff here, too
        }

    } while(level > 0);

    return object;
}

And then eventually you reach a level in which you will read the base types.

private MySetterGetterObject parseSubTree(XMLStreamReader reader) throws XMLStreamException {

    MySetterGetterObject myObject = new MySetterGetterObject();
    // read element attributes if any

    int level = 1;
    do {
        int event = reader.next();
        if(event == XMLStreamConstants.START_ELEMENT) {
            level++;

            // assume <FirstName>Thomas</FirstName>:
            if(reader.getLocalName().equals("FirstName")) {
               // read tag contents
               String text = reader.getElementText()
               if(text.length() > 0) {
                    myObject.setName(text)
               }
               level--;

            } else if(reader.getLocalName().equals("LastName")) {
               // etc ..
            } 


        } else if(event == XMLStreamConstants.END_ELEMENT) {
            level--;
            // do stateful stuff here, too
        }

    } while(level > 0);

    // verify that all required fields in myObject are present

    return myObject;
}

This is quite straightforward and there is no room for misunderstandings. Just remember to decrement level correctly:

A. after you expected characters but got an END_ELEMENT in some tag which should contain chars (in the above pattern):

<Name>Thomas</Name>

was instead

<Name></Name>

The same is true for a missing subtree too, you get the idea.

B. after calling subparsing methods, which are called on start elements, and returns AFTER the corresponding end element, i.e. the parser is at one level lower than before the method call (the above pattern).

Note how this approach totally ignores 'ignorable' whitespace too, for more robust implementation.

Parsers
Go with Woodstox for most features or Aaalto-xml for speed.

回复收藏 0 原文

烦人精 2024-12-13 13:32:58

概括地说，我认为 StAX 可以与 SAX 一样高效。随着 StAX 设计的改进，我确实找不到任何首选 SAX 解析的情况，除非使用遗留代码。

编辑：根据此博客Java SAX vs. StAX StAX不提供架构验证。

回复收藏 0 原文

撑一把青伞 2024-12-13 13:32:58

@Rinke：我想只有当您不需要处理 XML 内容时，我才会考虑使用 SAX 而不是 STAX；例如，您唯一想做的就是检查传入 XML 的格式是否正确，并且只想处理错误（如果有）...在这种情况下，您可以简单地在 SAX 解析器上调用 parse() 方法并指定错误处理程序来处理任何错误解析问题....所以基本上，在您想要处理内容的情况下，STAX 绝对是更好的选择，因为 SAX 内容处理程序太难编码...

这种情况的一个实际示例可能是，如果您的系统中有一系列 SOAP 节点仅企业系统和入门级 SOAP 节点让那些格式良好的 SOAP XML 通过下一阶段，那么我看不出有任何理由要使用 STAX。我只会使用 SAX。

回复收藏 0 原文