Java 中的并行 XML 解析

发布于 2024-10-03 08:52:43 字数 744 浏览 3 评论 0原文

我正在编写一个应用程序，它处理大量具有深层节点结构的 xml 文件（> 1000）。使用 woodstox（事件 API）解析具有 22.000 个节点的文件大约需要六秒钟。

该算法被放置在一个与用户交互的过程中，只有几秒钟的响应时间是可以接受的。所以我需要改进如何处理xml文件的策略。

我的流程分析 xml 文件（仅提取几个节点）。
处理提取的节点，并将新结果写入新的数据流（生成具有修改节点的文档副本）。

现在我正在考虑多线程解决方案（在 16 Core+ 硬件上可以更好地扩展）。我考虑了以下策略：

创建多个解析器并在 xml 源上并行运行它们。
重写我的解析算法线程保存以仅使用解析器的一个实例（工厂等）
将 XML 源拆分为块并将这些块分配给多个处理线程（map-reduce xml - serial)
优化我的算法（StAX 解析器比 woodstox 更好？）/使用具有内置并发性的解析器

我想提高整体性能和“每个文件”性能。

您有遇到此类问题的经验吗？最好的方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

送舟行 2024-10-10 08:52:43

这很明显：只需创建几个解析器并在多个线程中并行运行它们即可。
查看Woodstox 性能（目前已关闭，请尝试使用 Google 缓存）。
如果 XML 的结构是可预测的，则可以完成此操作：如果它具有许多相同的顶级元素。例如：
<前><代码><元素>
<更多>更多元素

<元素>
<其他>其他元素
在这种情况下，您可以创建简单的拆分器来搜索并将该部分提供给特定的解析器实例。这是一种简化的方法：在现实生活中，我会使用 RandomAccessFile 来查找开始停止点 ()，然后创建仅对文件的一部分进行操作的自定义 FileInputStream。
看看阿尔托。创造 Woodstox 的是同一个人。这是该领域的专家 - 不要重新发明轮子。

This one is obvious: just create several parsers and run them in parallel in multiple threads.
Take a look at Woodstox Performance (down at the moment, try google cache).
This can be done IF structure of your XML is predictable: if it has a lot of same top-level elements. For instance:
```
<element>
    <more>more elements</more>
</element> 
<element>
    <other>other elements</other>
</element>
```
In this case you could create simple splitter that searches <element> and feeds this part to a particular parser instance. That's a simplified approach: in real life I'd go with RandomAccessFile to find start stop points (<element>) and then create custom FileInputStream that just operates on a part of file.
Take a look at Aalto. The same guys that created Woodstox. This are experts in this area - don't reinvent the wheel.

回复收藏 0 原文

就像说晚安 2024-10-10 08:52:43

我同意吉姆的观点。我认为如果你想提高 1000 个文件的整体处理性能，你的计划是好的，除了 #3，在这种情况下是不相关的。
但是，如果您想提高单个文件的解析性能，则会遇到问题。我不知道如何在不解析 XML 文件的情况下分割它。每个块都将是非法的 XML，并且您的解析器将失败。

我相信提高整体时间对你来说已经足够了。在这种情况下，请阅读本教程：
http://download.oracle.com/javase/tutorial/essential/concurrency /index.html
然后创建例如 100 个线程的线程池和包含 XML 源的队列。每个线程仅解析 10 个文件，这将在多 CPU 环境中带来显着的性能优势。

回复收藏 0 原文

画离情绘悲伤 2024-10-10 08:52:43

除了现有的好的建议之外，还有一件相当简单的事情要做：使用游标 API (XMLStreamReader)，而不是事件 API。事件 API 增加了 30-50% 的开销，但（仅在我看来）并没有显着地使处理变得容易。事实上，如果你想要方便，我建议使用 StaxMate 代替；它构建在 Cursor API 之上，而不会增加大量开销（与手写代码相比最多增加 5-10%）。

现在：我假设您已经使用 Woodstox 进行了基本优化；但如果没有，请查看“使用 Stax 进行快速 XML 处理的 3 个简单规则”。具体来说，您绝对应该：