开箱即用的垃圾邮件过滤?

发布于 2024-08-06 01:31:45 字数 333 浏览 5 评论 0原文

我负责社交媒体监控系统。我们自己不会抓取网络,而是从 Spinn3r 等聚合器获取源。在大多数情况下,“博客”只不过是色情网站链接页面,但我们希望有一些内部的东西,我们可以在更快的时间范围内进行训练,而不是等待上游提供商做出更改。

我研究了 Spamassassin,如果我们要处理电子邮件,它对于我们的目的来说是理想的选择。是否有任何库可以只获取文本主体,并根据工作频率、链接数量、隐藏背景文本等对其进行质量评分?

理想情况下,我正在寻找 Java 中的东西,但如果那里没有任何东西,我就可以使用客户端-服务器或嵌入 jruby 或 jython 库。

我想我最终将不得不自己构建它,但它总是值得一试。

I work on a social media monitoring system. We don't crawl the web ourselves, we get feeds from aggregators like Spinn3r. In most cases, the "blogs" that are nothing but pages of links to porn sites are filtered, but we'd like something in-house that we can train on a quicker time frame than waiting for upstream providers to make changes.

I looked at Spamassassin, and it would be ideal for our purposes if we were dealing with email. Is there any library out there that can take just a body of text, and give it a quality score based on things like work frequencies, number of links, hidden background text, and so on?

Ideally, I'm looking for something in Java, but if there's nothing there, I'd be okay with client-server or embedding a jruby or jython library.

I think I'm going to end up having to build it myself, but it's always worth a shot.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

蓝眼睛不忧郁 2024-08-13 01:31:45

WordPress 有垃圾邮件插件来捕获垃圾评论。谷歌搜索结果:WP-SpamFree Anti-SpamSpam Karma 2.3

WordPress 插件似乎是用 PHP 实现的。也许那里会有一些有用的东西。

There are spam plugins for WordPress to catch spammy comments. A google search yields: WP-SpamFree Anti-Spam and Spam Karma 2.3

WordPress plugins appear to be implemented in PHP. Maybe there could be something helpful there.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文