当前位置：文江博客话题详情

压缩 XML 指标。

发布于 2024-07-07 17:06:27 字数 131 浏览 6 评论 0原文

我有一个客户端服务器应用程序，它通过 TCP/IP 将 XML 从客户端发送到服务器，然后广播到其他客户端。我如何知道 XML 的最小大小可以通过压缩 XML 而不是通过常规流发送来保证性能改进。

有什么好的指标或例子吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

放低过去 2024-07-14 17:06:29

Xml 通常压缩得很好，因为它往往有很多重复。

另一种选择是交换为二进制格式； BinaryFormatter 或 NetDataContractSerializer 是简单的选项，但与 xml 相比，两者都非常不兼容（例如与 java）。

另一种选择是可移植的二进制格式，例如谷歌的“协议缓冲区”。我维护了一个名为 protobuf-net 的 .NET/C# 版本。它被设计为与常规 .NET 方法（例如 XmlSerializer / DataContractSerializer）并行兼容，但比 xml 小得多，并且序列化和反序列化所需的处理（CPU 等）显着减少。

此页面显示了 XmlSerializer、DataContractSerializer 和 protobuf-net 的一些数字；我认为它包含有/没有压缩的统计数据，但它们似乎已经消失了......

[更新]我应该说 - QuickStart 项目中有一个 TCP/IP 示例。

回复收藏 0 原文

舞袖。长 2024-07-14 17:06:29

一个宽松的衡量标准是压缩任何大于单个数据包的数据，但这只是吹毛求疵。

没有理由避免在应用程序内部使用二进制格式 - 无论压缩需要多长时间，网络开销都会比压缩慢几个数量级（除非我们谈论的是非常慢的设备）。

如果这两个建议不能让您放心，您可以随时进行基准测试来找到压缩的位置。

回复收藏 0 原文

抹茶夏天i‖ 2024-07-14 17:06:29

无论如何都要压缩它。

对于具有 2 个以上标签的任何内容，它将节省您的带宽。

回复收藏 0 原文

内心激荡 2024-07-14 17:06:29

要确定压缩是否对您有任何好处，您需要使用预期将流经系统的实际或预期数据量来运行一些测试。

希望这可以帮助。

回复收藏 0 原文

赴月观长安 2024-07-14 17:06:29

在我们所做的测试中，我们发现了巨大的好处，但要注意对 CPU 的影响。

在我从事的一个项目中，我们向运行 .NET 的客户端发送大量 XML 数据（> 10 meg）。（我并不是推荐这样做，这只是我们所处的情况！！）我们发现，当 XML 文件变得足够大时，Microsoft XML 库无法解析 XML 文件（机器耗尽了）内存，即使在机器上> 1 gig）。更改 XML 解析库最终有所帮助，但在此之前，我们对传输的数据启用了 GZIP 压缩，这有助于我们解析大型文档。在我们的两个基于 Linux 的 websphere 服务器上，我们能够生成 XML，然后相当容易地对其进行 gzip。我认为，如果有 50 个用户同时执行此操作（加载大约 10 到 20 个这些文件），我们就可以用大约 50% 的 cpu 来完成此操作。 XML 的压缩似乎在服务器上比在 .net gui 上处理得更好（即解析/CPU 时间），但这可能是由于所使用的 Microsoft XML 库的上述缺陷造成的。正如我所提到的，有更好的库可用，它们速度更快且使用更少的内存。

在我们的例子中，我们在大小上也得到了巨大的改进——在某些情况下，我们将 50 兆的 XML 文件压缩到大约 10 兆。这显然也有助于提高网络性能。

由于我们担心影响，以及这是否会产生其他后果（我们的用户似乎一波又一波地做事，所以我们担心我们会耗尽 CPU），我们有一个配置变量，我们可以用它来打开 gzip开关。我建议你也这样做。

另一件事：我们还在将 XML 文件持久化到数据库之前对其进行了压缩，这节省了大约 50% 的空间（XML 文件从几 K 到几兆，但大多数都相当小）。做所有事情可能比选择特定级别来区分何时使用压缩更容易。

回复收藏 0 原文

~没有更多了~