促销代码的脏话检查

发布于 2024-12-26 23:49:02 字数 773 浏览 5 评论 0原文

我有一个有点不寻常的脏话相关问题。

现在我们习惯于处理用户生成内容的亵渎过滤——任何方法都不完美，但像 CleanSpeak< 这样的产品/a> 和 WebPurify 做得足够好。

不过，我们目前面临的问题是，我们一直在构建一个引擎来运行基于促销代码的比赛，该引擎将在国际上使用。我们可以检查这些代码在拉丁美洲西班牙语或马来语中是否有亵渎行为（至少在第一个例子中），以确保我们不会发送相当于 FUCK23 或PEN15 之类的。

我们尝试过谷歌搜索并询问我们认识的人，但我们找不到一种简单的方法来获取要过滤的 es-419 或 ms 脏话列表反对的代码。由于每个区域设置实际上有数百万个代码，因此我们宁愿进行离线检查，也不愿为每个代码调用 API（这在带宽和使用费方面都非常昂贵）。

我知道这有点遥远，但是有人知道不同语言的脏话列表的好来源吗？

#disclaim：我们知道没有任何亵渎过滤是完美的，它对于用户生成的内容本质上是徒劳的，我们已经阅读了 SO #273516：如何实现一个好的脏话过滤器？——这不是我们要问的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

白龙吟 2025-01-02 23:49:02

用其他语言构建或查找列表非常耗时且困难（相信我，我们在 Inversoft 构建了其中的许多列表）。您可能最好调整代码生成器（据我所知，您的代码正在生成促销代码而不是人类）。

调整生成器的最佳方法是确保代码不能轻易地根据大多数欧洲语言中辅音和元音的一般用法来形成单词。在波兰语和其他语言中，事情变得有点冒险，但通常是有效的。

一般来说，大多数以元音开头的代码后面都会跟着另一个元音或非连接辅音（例如没有“u”的“q”）。如果代码以辅音开头，则下一个字符是相同的辅音或使用概率较低的辅音。例如，如果您以“s”开头，那么添加“g”是一个不错的选择。

您还可以使用维基词典或其他类似来源（如 Linux 词典文件）来构建统计方法。通过提取字符彼此相邻的概率，您应该能够以良好的准确性生成代码，而不会成为任何语言中的单词。

但是，如果我误读了您的问题并且您没有以编程方式生成代码，则您可以完全忽略我的回答。 :)

回复收藏 0 原文

不醒的梦 2025-01-02 23:49:02

我也有同样的想法。在尝试为我正在做的项目生成 6 个字符代码时。
我决定减少明显的 porfain 代码的可能性，因此我从最初的 36 代基础代码中删除了在尽可能多的“坏”单词中发现的元音。给我留下的更像是一个 28 进制系统，不包括 a,e,i,o,u, 1,0。删除了 1 和 0，以减少某些字体中这些字符与 I、L、O 之间的混淆
到目前为止，我还没有看到过“粗俗”的代码。尽管 28 进制有 1 亿种独特的组合。
我不能保证其他语言，甚至没有考虑过它......

回复收藏 0 原文

~没有更多了~