当前位置：文江博客话题详情

使用 Python 进行异常检测

发布于 2024-11-27 03:21:23 字数 1436 浏览 4 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

咋地 2024-12-04 03:21:23

这是解决该问题的简单机器学习方法，也是我开始解决该问题并开发基线分类器的方法：

构建脚本语料库并附加标签“好”（标签= 0）或“ bad'（标签 = 1）越多越好。尽量确保“坏”脚本占总语料库的合理比例，50-50 个好/坏是理想的。

开发指示可疑或不良脚本的二进制功能。例如，“eval”的存在、“base64_decode”的存在。尽可能全面，不要害怕包含可能捕获一些“好”脚本的功能。帮助做到这一点的一种方法可能是计算两类脚本中单词的频率计数，并选择在“坏”中突出出现但在“好”中不太突出的单词作为特征。

在语料库上运行特征生成器，并构建带有标签的特征的二进制矩阵。

将语料库分为训练集（80% 的示例）和测试集（20%）。使用 scikit learn 库，使用训练集训练一些不同的分类算法（随机森林、支持向量机、朴素贝叶斯等），并在未见过的测试集上测试它们的性能。

希望我有一个合理的分类精度可以作为基准。然后，我会考虑改进功能、一些无监督方法（无标签）和更专业的算法，以获得更好的性能。

对于资源，Andrew Ng 的 Coursera 机器学习课程（我相信其中包括垃圾邮件分类示例）是一个好的开始。

回复收藏 0 原文

~没有更多了~

关于作者

放血

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

使用 Python 进行异常检测

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

使用 Python 进行异常检测

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。