诊断集群软件的异常行为

发布于 2024-09-13 10:25:18 字数 442 浏览 17 评论 0原文

我在一个小型集群上使用一种负载均衡器，它能够在零持续时间请求上实现 >2000rps（工作节点立即满足的请求）。但是，一旦请求不再是零持续时间并开始花费 1 毫秒，性能就会立即下降 10 倍以上。两个方向传输的数据相同，大小约为 2kb。这肯定与集群或网络吞吐量的饱和度无关，因为 1ms 请求的 200rps 是一个非常小的负载，而网络是 10Gbit。此外，负载均衡器和工作节点上的 CPU 负载仅为 2-5% 左右。

我想知道这是否可能与操作系统调度程序或操作系统网络堆栈的某些病态行为有关（对于非常短的交互，有一些特殊情况的行为）。

我该如何诊断原因？需要关注哪些性能计数器？使用什么工具或方法？

（以防万一有人知道我的特定问题的答案，我正在谈论 MS HPC Server 2008 R2 的“WCF Broker”，通过 Hyper-V 在 Windows Server 2008 R2 上运行）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

烂人 2024-09-20 10:25:18

您可以做的一件事是使用 ETW 跟踪来尝试了解 WCF 作业运行时节点正在做什么。在 HPC 服务器上，我有时 clusrun xperf 来收集所有或特定节点上的跟踪。您可以使用许多工具来分析 ETW 跟踪，包括 xperf 本身。我还没有使用 HPC SOA (WCF) 做过任何认真的工作，但我确实编写了一个简单的 WCF 光线跟踪器应用程序，然后使用 xperf 在几个节点上对其进行分析。

回复收藏 0 原文