什么是检测异常的好算法？

发布于 2024-09-24 19:33:52 字数 362 浏览 14 评论 0原文

背景

问题是这样的：

黑匣子每天输出一个新数字。
这些数字已经记录了一段时间。
检测黑匣子中的新数字何时超出一段时间内建立的数字模式。

数字是整数，时间段是一年。

问题

什么算法可以识别数字中的模式？

该模式可能很简单，例如始终升序或始终降序，或者数字可能落在一个狭窄的范围内，等等。

想法

我有一些想法，但不确定最佳方法，或者已经存在哪些解决方案：

机器学习算法？
神经网络？
区分正常数和异常数？
统计分析？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

灯下孤影 2024-10-01 19:33:52

对数据进行集群。

如果您不知道数据将具有多少种模式，请使用高斯混合模型 (GMM) 之类的模型以及评分函数（例如贝叶斯信息准则 (BIC)），以便您可以自动检测数据中可能的聚类数量。您的数据。如果您不知道 k 可能是什么值，我建议您使用此方法而不是 k 均值。一旦您为过去一年的数据构建了 GMM，给定一个新的数据点 x，您就可以计算它由任何一个集群生成的概率（由高斯模型中的高斯MM）。如果您的新数据点由任何一个集群生成的概率都很低，则它很可能是真正的异常值。

如果这听起来有点太复杂，您会很高兴知道用于自动集群识别的整个 GMM + BIC 过程已在 excellent MCLUST 包用于R。我已经多次使用它来解决此类问题并取得了巨大成功。

它不仅允许您识别异常值，而且如果您在某个时候需要（或想要）此功能，您还可以将 p 值放在异常值点上。

回复收藏 0 原文

归属感 2024-10-01 19:33:52

您可以尝试使用线性回归进行线拟合预测，看看效果如何，这将相当容易以您选择的语言实施。
将一条线拟合到数据后，您可以计算沿线的平均值标准差。
如果新点位于趋势线 +- 标准差上，则不应视为异常。

PCA 是处理此类数据时想到的另一种技术。

您还可以查看无监督学习。这是一种机器学习技术，可用于检测较大数据集中的差异。

听起来是一个有趣的问题！祝你好运

回复收藏 0 原文

-黛色若梦 2024-10-01 19:33:52

你提到的所有技术都没有什么神奇之处。我相信您应该首先尝试缩小可能遇到的典型异常的范围，这有助于使事情变得简单。

然后，您可能想要计算与这些特征相关的派生量。例如：“我想检测方向突然变化的数字”=>计算 u_{n+1} - u_n，并期望它具有恒定的符号，或者落在某个范围内。您可能希望保持这种灵活性，并允许您的代码设计可扩展（如果您进行 OOP，策略模式可能值得一看）

然后，当您有一些感兴趣的派生量时，您可以对它们进行统计分析。例如，对于派生量 A，您假设它应该具有某种分布 P(a, b)（uniform([a, b]) 或 Beta(a, b)，可能更复杂），您可以采用先验定律在a、b上，你根据连续的信息调整它们。然后，最后添加的点提供的信息的后验可能性应该能让您了解它是否正常。每个步骤的后验定律和先验定律之间的相对熵也是值得监控的一件好事。有关更多信息，请参阅有关贝叶斯方法的书籍。

如果你想检测异常值，我认为复杂的传统机器学习内容（感知器层或 SVM 仅引用它们）没有什么意义。这些方法在对已知相当干净的数据进行分类时效果很好。

回复收藏 0 原文

~没有更多了~