是否有充分的理由在内部将数据保存为 XML？

发布于 2024-07-25 06:38:07 字数 851 浏览 8 评论 0原文

在我工作的这些年里，我注意到了一种我认为是反模式的明显趋势：将内部数据维护为大的 XML 字符串。我见过很多不同的方法，尽管两个最严重的罪犯非常相似。

Web 服务

第一个应用程序是 Web 服务，它提供对 SQL 数据库中潜在大量数据的访问。启动时，它或多或少地从数据库中提取所有数据并将其作为 XML 存储在内存中。（三次。）该应用程序的所有者将其称为缓存。我称其为慢，因为在解决这个问题时遇到的每个性能问题都可以直接追溯到这个问题。（在企业环境中，客户端因性能故障而受到指责，而不是服务，这应该不足为奇。）该应用程序确实使用了 XML DOM。

导入器

第二个应用程序读取从第三方数据库导出后生成的 XML 文件。目标是将这些数据导入专有系统（由我们拥有）。执行此操作的应用程序会读取整个 XML 文件，并在整个导入序列中维护至少两个（有时多达四个）XML 文件的副本。请注意，数据可以在导入之前进行操作、转换和配置，因此导入者在整个生命周期中都拥有 XML 格式的数据。不出所料，当提供中等大小的 XML 文件时，该导入器就会崩溃。该应用程序仅将 XML DOM 用于其副本之一，其余部分都是原始 XML 字符串。

我对常识的理解表明，XML 并不是一种在内存中保存数据的好格式，而是数据在输出/传输时应转换为 XML，在读取时应转换为内部数据结构并导入。问题是，我经常遇到完全忽略可扩展性问题的生产代码，并且为此付出了大量额外的努力。（这些应用程序中字符串解析的绝对数量令人恐惧。）

这是其他人遇到的常见错误吗？或者只是我运气不好？或者我是否错过了一些非常明显且良好的情况，在这些情况下，将大量数据以 XML 形式存储在内存中是正确且可以的？

原文

In the years that I've been at my place of employment, I've noticed a distinct trend towards something that I consider an anti-pattern: Maintaining internal data as big strings of XML. I've seen this done a number of different ways, though the two worst offenders were quite similar.

The Webservice

The first application, a web service, provides access to a potentially high volume of data within a SQL database. At startup, it pulls more-or-less all of that data out of the database and stores it in memory as XML. (Three times.) The owners of this application call it a cache. I call it slow, because every perf problem that's been run into while working against this has been directly traceable to this thing. (It being a corporate environment, there should be no surprise that the client gets blamed for the perf failure, not the service.) This application does use the XML DOM.

The Importer

The second application reads an XML file that was generated as the result of an export from a third-party database. The goal is to import this data into a proprietary system (owned by us). The application that does it reads the entire XML file in and maintains at least two, sometimes as many as four, copies of the XML file throughout the entire importing sequence. Note that the data can be manipulated, transformed, and configuration can occur before the import takes place, so the importer owns this data in an XML format for it's entire lifetime. Unsurprisingly, this importer then explodes when a moderately sized XML file is provided. This application only uses the XML DOM for one of it's copies, the rest are all raw XML strings.

My understanding of common sense suggests that XML is not a good format for holding data in-memory, but rather data should be translated into XML when it's being output/transferred and translated into internal data structures when being read in and imported. The thing is, I'm constantly running into production code that completely ignores the scalability issues, and goes through a ton of extra effort to do so. (The sheer volume of string parsing in these applications is frightening.)

Is this a common failure to apply the right tool for the job that others people run into alos? Or is it just bad luck on my part? Or am I missing some blindingly obvious and good situations where it's Right and OK to store high volumes of data in-memory as XML?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浅暮の光 2024-08-01 06:38:08

存储在内存中的任何数据都应该位于类中。我们谈论的数据量越大，这一点就变得越重要。 Xml 是一种非常臃肿的格式，会降低性能。 Xml 只能用于在应用程序之间传输数据。恕我直言。

回复收藏 0 原文

软甜啾 2024-08-01 06:38:08

不，我同意。对于第一个示例，数据库应该处理几乎所有缓存，因此将所有数据存储在程序内存中是错误的。无论它是以 XML 形式还是以其他方式存储在内存中，这都适用。

对于第二个，您应该尽快将 XML 转换为有用的表示形式（可能是数据库），然后以这种方式使用它。仅当数据量较小时，才适合将所有工作作为 XmlDocument 在内存中完成（例如使用 XPath）。应非常谨慎地使用字符串解析。

回复收藏 0 原文

宣告ˉ结束 2024-08-01 06:38:08

@Matthew Flaschen 提出了一个很好的观点。我想补充一点，当您加入任何现有项目时，您可能会发现一些您不同意的设计和实现决策。

我们都在不断学习新事物，但我们都会犯错误。尽管我同意这似乎是一个“duh”问题，但我确信其他开发人员正在尝试通过缓存的概念来优化代码。

关键是，有时需要温和的方法来说服人们，尤其是开发人员，改变他们的方式。这不是编码问题，而是人的问题。您需要找到一种方法来说服这些开发人员，您建议的这些更改并不意味着他们无能。

我建议同意他们的观点，即缓存可能是一个好主意，但您希望对其进行研究以加速功能。创建一个快速演示，展示您的（更符合逻辑的）实现方式与旧方式相比的工作方式。速度的显着提高是无可争议的。只是要小心直接攻击他们在对话中的实施方式。您需要这些人与您一起工作。

祝你好运！

回复收藏 0 原文

别念他 2024-08-01 06:38:08

我也同意，而且我确实认为有运气不好的因素。

...但是抓住救命稻草，我能看到以 XML 形式存储的数据的唯一用途是用于自动化单元测试，其中 XML 提供了一种模拟测试数据的简单方法。但绝对不值得。

回复收藏 0 原文

千年*琉璃梦 2024-08-01 06:38:08

我发现我必须这样做才能与旧版 COM 对象交互。 COM 对象可以采用 xml 或类。填充类的每个成员的互操作开销太大，处理 xml 是一种更快的替代方案。我们本可以使 ac# 类与 COM 类相同，但在我们的时间范围内这确实太难了。原来是 xml。这并不是一个好的设计决策，但在处理大型数据结构的互操作时，这是我们能做到的最快的。

我不得不说，我们在 C# 端使用 LinqtoXML，因此使用起来稍微容易一些。

回复收藏 0 原文

暗喜 2024-08-01 06:38:08

OOP 和数据库怎么样？ Xml 有其用途，但将其用于所有用途可能会出现问题（如您所见）。

数据库可以允许索引、事务等，这将加快您的数据访问速度

对象在大多数情况下更容易使用，它们可以更好地了解您的域等。

我不反对使用 xml，但它就像模式，它们是一种工具，我们应该了解在何时何地使用它们，而不是爱上它们并尝试在任何地方使用它们......

回复收藏 0 原文

地狱即天堂 2024-08-01 06:38:08

格雷格，

在几个应用程序中，我确实或多或少地遵循了您描述的模式：

编辑：没有划痕。我从未将 XML 存储为字符串（或多个字符串）。我只是将其解析为 DOM 并使用它。这很有帮助。

我已将 XML 源导入到 DOM（Microsoft Parser）中，并将它们保留在那里以进行所有必需的处理。我很清楚 DOM 造成的内存开销，但我发现该方法仍然非常有用。

处理过程中的一些检查需要随机访问数据。 selectPath 语句非常适合此目的。
DOM 节点可以作为参数在应用程序中来回传递。另一种方法是编写包装每种类型对象的类，并随着 XML 模式的发展而更新它们。这是一种糟糕的（VB6/VBA）多态性方法。
将 XSLT 转换应用于全部或部分 DOM 轻而易举
文件 I/O 也由 DOM 处理(xmldoc.save...)

对象的链接列表将消耗相当数量的内存并需要更多代码。所有的搜索和 I/O 功能我都必须自己编写代码。

我所认为的反模式实际上是应用程序的旧版本，其中 XML 或多或少被手动解析为结构数组。