管理分布在多台计算机上的大量日志文件

发布于 2024-09-28 18:39:45 字数 934 浏览 7 评论 0原文

我们已经开始使用第三方平台（GigaSpaces）来帮助我们进行分布式计算。我们现在试图解决的主要问题之一是如何在这个分布式环境中管理我们的日志文件。目前我们有以下设置。

我们的平台分布在 8 台机器上。每台机器上都有 12-15 个进程，它们使用 java.util.logging 记录到单独的日志文件中。在此平台之上，我们有自己的应用程序，它们使用 log4j 并将日志记录到单独的文件中。我们还将标准输出重定向到一个单独的文件以捕获线程转储和类似内容。

这会产生大约 200 个不同的日志文件。

截至目前，我们还没有工具来帮助管理这些文件。在以下情况下，这会引起我们严重的头痛。

当我们事先不知道问题发生在哪个进程时进行故障排除。在这种情况下，我们当前使用 ssh 登录每台计算机并开始使用 grep。
尝试积极主动地定期检查日志是否有任何异常情况。在这种情况下，我们当前还使用 less 和 tail 登录到所有计算机并查看不同的日志。
设置警报。我们希望针对超过阈值的事件设置警报。要检查 200 个日志文件，这看起来很痛苦。

目前，我们每秒只有大约 5 个日志事件，但随着我们将越来越多的代码迁移到新平台，这一数字将会增加。

我想向社区询问以下问题。

您如何处理类似的情况，许多日志文件分布在通过不同框架记录的多台计算机上？
您为什么选择该特定解决方案？
你们的解决方案效果如何？您发现什么是好的，什么是坏的？

非常感谢。

更新

我们最终评估了 Splunk 的试用版。我们对其工作原理非常满意并决定购买它。易于设置、快速搜索以及大量适合技术爱好者的功能。我可以推荐任何有类似情况的人都去看看。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

帝王念 2024-10-05 18:39:45

我建议将所有 java 日志记录通过管道传输到 Simple Logging Facade for Java (SLF4J)，然后重定向所有日志从 SLF4J 到 LogBack。 SLF4J 特别支持处理所有流行的遗留 API（log4j、commons-logging、java.util.logging 等），请参阅这里。

将日志放入 LogBack 后，您可以使用它的众多附加程序之一来聚合多台计算机上的日志，有关详细信息，请参阅手册有关附加程序的部分。 Socket、JMS 和 SMTP 似乎是最明显的候选者。

LogBack 还内置支持监控日志文件中的特殊条件以及过滤事件发送到特定的附加程序。因此，您可以设置 SMTP 附加程序，以便在日志中每次出现错误级别事件时向您发送电子邮件。

最后，为了简化故障排除，请务必在所有传入的“请求”中添加某种requestID，请参阅我对此问题了解详细信息。

编辑：您还可以实现自己的自定义 LogBack 附加程序并将所有日志重定向到抄写员。