当前位置：文江博客话题详情

应用程序健康监控系统有哪些要求？

发布于 2024-07-05 13:28:15 字数 241 浏览 14 评论 0原文

应用程序运行状况监控系统至少应该为您（开发人员）和/或您的老板（IT 经理）和/或运营（待命）人员做什么？

除了最低要求之外，它还应该做什么？

监视“基础设施”应用程序（ms-exchange、apache 等）是否足够，还是还需要监视单个用户应用程序、网站和数据库？

如果是后者，您需要了解哪些信息？

附录：感谢您的意见，我真的在寻找应用程序级监控而不是基础设施监控，但了解两者是很好的

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情话墙 2024-07-12 13:28:15

最低限度：确保它正在运行:)

但是，其他一些东西会非常有用。例如，CPU 负载、RAM 使用情况以及（在多用户系统中）哪个用户正在运行什么。此外，对于访问网络的应用程序，每个应用程序的网络连接列表。而且（如果您有权访问客户端计算机）能够看到应用程序的“窗口标题”会很酷 - 也许每 2-3 分钟检查一次是否发生更改并保存。此外，应用程序打开的文件列表可能非常有用，但这不是必须的。

回复收藏 0 原文

〆一缕阳光ご 2024-07-12 13:28:15

我认为这相当简单 - 进行监控，以便在出现问题之前尽早收到警告。这意味着监视依赖关系和应用程序本身。

如果您不打算提供有关您正在监视的应用程序的详细信息，那么很难提供具体信息，因此我建议将其用作一般规则。

回复收藏 0 原文

强辩 2024-07-12 13:28:15

这是一个开放式问题，但我会从物理测量开始。
1. 我认为托管此站点的所有计算机都可以 ping 通吗？
2. 所有应该提供内容的机器实际上都在提供某些内容吗？（理想情况下，这会受到外部网络的影响。）
3. 每台机器上的每个预期服务是否都在运行？
3a. 这些服务最近运行过吗？
4、每台机器还有剩余硬盘空间吗？（不要忘记数据库）
5. 这些机器是否已备份？上次是什么时候？

一旦布置了系统的物理监控，就可以解决特定于系统的监控问题吗？

1.自动化脚本可以登录吗？花了多长时间？
2. 有多少活跃用户？是否新增了一百万个虚假帐户？
...
这类问题变得更加模糊，并且可能非常特定于系统。它们通常也可以在响应物理测量时反应性地导出。硬盘已满，也许网络服务器日志已满，因为一群代理创建了太多假用户。那种事。

虽然 A 计划不一定是被动的，但这是许多站点设置监控系统的方式。

回复收藏 0 原文

╄→承喏 2024-07-12 13:28:15

很好的问题。

前一段时间，我们一直在寻找一些应用程序级监控解决方案来满足我们的需求，但没有任何运气。流行的监控解决方案主要用于监控基础设施，在我看来，它们对于大多数中小型公司的要求来说太复杂了。

我们需要（主要）以下功能：

警报 - 我们想了解
尽可能快地处理事件
无痛管理 - 托管服务将是
最好的
可视化 - 很高兴知道正在发生什么并从数据中获取一些知识

因为我们没有找到合适的解决方案，所以我们开始编写自己的解决方案。最后，我们结束了名为 AlertGrid 的启动并运行的服务。（当然，您可以免费检查它。）

其背后的想法是提供一种简单的方法来处理自定义监控场景。集成 API 非常简单（一个函数带有两个必需参数）。目前，我们和其他人将其用于：

监视计划任务（cron 作业）
监视整个应用程序逻辑执行
针对应用程序中的错误发出警报
我们还在研究使用 AlertGrid 进行基本基础设施监视的示例

回复收藏 0 原文

邮友 2024-07-12 13:28:15

应用程序是否正在运行。
CPU/内存/网络使用异常。
报告任何未处理的异常。
各种模块的状态（如果适用）。
外部组件（数据库、Web 服务、文件服务器等）的状态
待处理后台任务的数量（如果适用）。
也许可以跟踪应用程序的使用情况并报告最常用/较少使用的功能的统计信息，以便您知道哪些优化最有利。

回复收藏 0 原文

萌吟 2024-07-12 13:28:15

答案是“视情况而定”。为什么需要监控？您的运营人员有多少？需要报告吗？应用环境是什么？谁在乎申请是否失败？谁关心是否发生异常？任何错误都可以恢复吗？我可以问这样的问题很长时间。

回复收藏 0 原文

命比纸薄 2024-07-12 13:28:15

至少您想知道系统是否健康。这对于定义您的系统是否健康是主观的。计算机是否已启动、所需的资源是否存在、数据是否正在系统中流动、数据是否正确地产生结果等等。

在我的项目中，我们对其中的大部分进行监控，然后再进行一些监控。这实际上取决于您可以用来分析一切正常的最高级别。在我们的例子中，我们需要了解数据输出。如果您只需要了解这些机器是否正常运行，那么您就无需向缺乏经验的最终用户展示问题所在。

如果您只是过度关注数据结果，还有一些“现成的”工具可以为您完成大量艰苦的工作。当我环顾四周时，我特别喜欢 Nagios 但我们需要的东西比它可以轻松显示的更多，所以我编写了自己的监视系统。基本上我们还会观察系统中的“特殊性”、内存/CPU 峰值等......

回复收藏 0 原文

奢欲 2024-07-12 13:28:15

您需要做的是分解应用程序的业务流程，然后让软件在主要业务组件上发出事件。此外，您还需要创建端到端综合交易（例如，模拟最终用户点击网站）。所有这些数据都将被输入到监控工具中。过去，我为流入 Tivoli Monitoring 的 JMX 适配器的应用程序完成了 JMX，然后我完成了实现“假用户”的脚本，然后将结果通过管道输入到 Tivoli Monitoring 的脚本适配器。 Tivoli Monitoring 获取数据，然后根据该原始数据创建应用程序运行状况和性能图表。

回复收藏 0 原文