如何在分布式系统中分析日志＆＃xff1f;

发布于 2025-02-06 15:58:42 字数 230 浏览 0 评论 0原文

当分布式系统（如筏节点）中发生意外行为时，请求的逻辑趋势或数据流的逻辑趋势通常只能通过日志分析。但是，由于分布式系统，这很困难。我发现有一些工具，例如 shiviz 可以通过日志可视化请求或数据流，但是需要修改源代码。还有其他类似的入侵工具吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

眼眸 2025-02-13 15:58:42

有两种主要方法。一个是拥有一个可以转到每个服务器并搜索日志的工具。另一个选项是要有一个用于日志的中心位置，并且所有节点都将日志推向该存储 - 这就是AWS CloudWatch的工作方式。

无论哪种情况，从操作员的角度来看，都有一个工具可以在其中搜索所有日志。

您问题的第二部分 - 如何使此分析有效。

首先，日志应该具有良好的质量。这是一件天真的事情，但这非常重要。我无法计算我分析了多少次详细的次数，但毫无用处的日志。

第二个挑战 - 如何分析跨越几个节点的过程。这更复杂。这里有两个主要功能：

如何查找与相同的“事件”相关的所有日志 - 例如，可以说，API调用是5个服务 - 我们如何在这些服务中跟踪此呼叫。这里的典型解决方案是在第一个服务上生成唯一的请求ID，然后通过所有服务传播此ID。
如何重新组装跨节点的呼叫顺序。从“理论”的角度来看，这个问题是关于总顺序 - 我们需要能够进行任何两个日志事件，然后说出哪一个发生了。在这里，我们不能使用时间戳，因为它们还不够准确。幸运的是，我们有一种众所周知且简单的算法可以处理：Lamport Timestamp。当然，开发人员必须将其添加到代码中才能使其正常工作。它可以是服务代码，也可以是日志代理代码（日志代理是汇总所有日志的工具）。值得一提的是，如果您的分布式系统具有诸如呼叫结构之类的树，EG A始终收到用户的请求，然后呼叫服务B和C-在这种情况下，携带请求ID就足够了，则总订单可能是过度杀伤已经知道订单了。在像筏这样的情况下，需要总订单，在这种情况下，并不总是清楚谁打电话给谁。

~没有更多了~