检查 Java 字符串实例是否可能包含垃圾邮件数据的最简单方法

发布于 2024-07-27 15:13:57 字数 176 浏览 8 评论 0原文

我有一个迭代 String 实例的过程。 每次迭代对 String 实例执行很少的操作。 最后 String 实例被持久化。

现在,我想为每次迭代添加一个检查 String 实例是否可能是垃圾邮件的检查。 我只需验证 String 实例不是“成人材料”垃圾邮件。

有什么建议吗?

I have a process which iterates String instances.
Each iteration does few operations on the String instance.
At the end the String instance is persisted.

Now, I want to add for each iteration a check if the String instance might be spam.
I only have to verify that the String instance is not "adult materials" spam.

Any recommendations?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

痴者 2024-08-03 15:13:57

这是业界一直在努力解决的一个非常难题。 您要做的最好的事情是尝试使用现有的解决方案,例如 Classifier4J 以及黑名单用于识别垃圾邮件的数据源。

This is a very hard problem that the industry is constantly trying to solve. The best thing for you to do is to try and use an existing solution like Classifier4J along with a black-list datasource to identify spam.

梦屿孤独相伴 2024-08-03 15:13:57

您需要应用一些贝叶斯逻辑,这就是 Andrew 提到的 Classifier4J 正在做的事情封面。

Paul Graham 几年前写了一篇关于此的好文章 - http://www.paulgraham.com/spam .html

You need to apply some Bayesian logic, which is what, among other things, Classifier4J that Andrew mentioned is doing beneath the covers.

Paul Graham wrote a good article about this a few years back - http://www.paulgraham.com/spam.html.

三生殊途 2024-08-03 15:13:57

您可以尝试编写自己的分类器等,但如果您有保证网络访问,那么仅使用 Akismet 和Java 绑定? 这对于查找垃圾邮件非常有用。

您需要考虑网络连接和许可。

You could try writing your own classifier etc, but if you have guaranteed network access, how about just using Akismet and the Java bindings? It's pretty good for finding spam.

You'll need to take the network connectivity and licensing into consideration.

半山落雨半山空 2024-08-03 15:13:57

最简单的方法就是检查已知的垃圾邮件单词。 这里的问题是,对于在不同上下文中含义不同的单词,很容易出现误报。 您要么需要手动选择单词列表,并且只包含那些没有正当理由的单词,要么选择更重量级的解决方案。

Easiest way is simply to check against known spam words. The problem here is that it's easy to get false positives with words that mean different things in different contexts. You either need to hand-pick the word list and only include those which have no legitimate reason, or opt for a more heavyweight solution.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文