扩展读取大型 XML 文件的应用程序

发布于 2024-12-03 14:50:20 字数 382 浏览 1 评论 0原文

我有一个应用程序会定期读取大量 XML 文件（大约 20-30 个），比如每 10 分钟一次。现在，每个 XML 文件的大小至少约为 40-100 MB。读取每个 XML 后，就会从文件中创建一个映射，然后该映射会跨处理器链 (10-15) 传递，每个处理器都使用数据、执行一些过滤或写入数据库等。

现在应用程序运行在 32 位 JVM 中。目前无意迁移到 64 位 JVM。正如预期的那样，内存占用量非常高...接近 32 位 JVM 的阈值。现在，当我们收到大文件时，我们将生成的映射序列化到磁盘中，并同时运行最多 3-4 个映射的处理器链，就好像我们尝试同时处理所有映射一样，很容易出现内存不足。垃圾收集也相当高。

我有一些想法，但想看看人们是否已经尝试/评估过一些选项。那么，有哪些选项可以扩展此类应用程序呢？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一笔一画续写前缘 2024-12-10 14:50:20

是的，鹦鹉学舌@aaray和@MeBigFatGuy，你想为此使用一些基于事件的解析器，提到的dom4j，或者SAX或StAX。

举一个简单的例子，如果批量加载，100MB XML 至少会消耗 200MB 的 RAM，因为每个字符都会立即扩展为 16 位字符。

接下来，您不使用的任何元素标签都将消耗额外的内存（加上节点的所有其他包袱和簿记），并且这一切都被浪费了。如果您正在处理数字，如果数字大于 2 位数字，则将原始字符串转换为长字符串将是一个净胜算。

如果（这是一个很大的如果）您使用了很多相当小的字符串集，您可以通过 String.intern()'ing 它们来节省一些内存。这是一个规范化过程，可确保该字符串是否已经存在于 jvm 中，并且是共享的。这样做的缺点是它会污染你的永久元（一旦被拘留，就永远被拘留）。 PermGen 是相当有限的，但另一方面它几乎不受 GC 的影响。

您是否考虑过能够通过外部 XSLT 运行 XML，以在它进入 JVM 之前删除您不想处理的所有内容？有几个独立的命令行 XSL 处理器可用于将文件预处理为更合理的内容。这实际上取决于您实际使用的数据量。

通过使用基于事件的 XML 处理模型，XSLT 步骤几乎是多余的。但是基于事件的模型基本上都很难使用，因此也许使用 XSLT 步骤可以让您重用一些现有的 DOM 逻辑（假设这就是您正在做的事情）。

内部结构越扁平，内存就越便宜。实际上，运行 32b 虚拟机有一点优势，因为实例指针的大小只有一半。但是，当您谈论 1000 个或数百万个节点时，所有这些都会快速增加。

回复收藏 0 原文