当前位置：文江博客话题详情

计算字符串被随机化的概率？ - Python

发布于 2024-09-01 12:25:35 字数 700 浏览 12 评论 0原文

这与我之前提出的一个问题相关（问题）

我有一个手动创建的字符串列表，例如：

露西87
戈登王
fancy_unicorn77
joplucky_kanga90
属于独角鲸的基地

和随机字符串列表：

约翰克德夫
煎饼90kgjd
fancy_jagookfk
曼哈顿

表明最后一组字符串是随机的的是诸如 'kjg', 'jgf', 'lkd', ... 之类的序列。

有什么聪明的方法可以将包含这些明显随机的字符串的字符串从人群中分离出来吗？

我想这在很大程度上是因为某些字符更有可能被放置在其他字符旁边（例如“co”，“ka”，“ja”，...）。

对这个有什么想法吗？ Kylotan提到了Reverend，但我不确定它是否可以用于这样的目的。

非常感谢您的帮助！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

二智少女猫性小仙女 2024-09-08 12:25:35

这只是一个想法。我自己从未尝试过...

通过对字典中找到的每个（重叠）4 字母序列进行哈希处理来构建布隆过滤器。通过计算字符串中有多少个 4 字母序列未命中过滤器来测试字符串。错过的次数越多，该单词就越有可能包含随机垃圾。

尝试调整布隆过滤器的大小和每个序列的字母数量。

另请注意（感谢@MihaiD），您应该在布隆过滤器中包含一个名称字典，最好来自多种语言，以最大限度地减少误报。

回复收藏 0 原文

笑看君怀她人 2024-09-08 12:25:35

如果您通过 textcat 之类的东西运行字符串，您会得到什么分数？（我见过 TextCat 的几种不同实现；也许已经有一个 Python 实现了；如果没有，它就不是一个硬算法——重要的是数据。）

我在想，如果你去掉数字，第一组字符串将比其中包含随机内容的字符串更接近 TextCat 中的“英语”结果。

距离有多近以及是否能够使用 TextCat 数据（从根本上讲，该数据基于特定语言中哪些字母往往彼此相邻）来“通过”或“失败”字符串将需要一些知识实验，不过……

回复收藏 0 原文

指尖上的星空 2024-09-08 12:25:35

尝试使用普通贝叶斯分类器。对于一般情况应该足够了。

回复收藏 0 原文

噩梦成真你也成魔 2024-09-08 12:25:35

在我看来，您似乎正在尝试编写代码来识别某些垃圾邮件发送者对字符串所做的一组特定的小东西，以通过您的过滤器。我不明白是什么阻止了他们，在你付出了所有的努力之后，对他们的算法进行 10 秒的调整并击败你的新过滤器。

回复收藏 0 原文

无所谓啦 2024-09-08 12:25:35

前一段时间，我读了一篇关于随机名称生成的短文，其中他们做了以下工作：他们建立了一个表，其中包含您已经指出的信息：“我想这在很大程度上是因为某些字符更有可能出现被放置在其他人旁边”。

所以他们所做的就是阅读整本字典并确定哪些字母更可能彼此放置。我不知道他们连续考虑了多少个字母。也许你应该尝试不仅仅是两个连续的字母，让我们说 3 到 6 之间的东西。

现在我建议你建立这样一个表（也许以更好的数据结构表示），其中包含所有“有效”的连续字母组合（也许他们的可能性）并查看要检查的您的姓名是否（几乎）仅包含此类“有效”连续字母。

回复收藏 0 原文

~没有更多了~

关于作者

情域

暂无简介

文章

28 人气

关注发私信

佚名

文章 0 评论 0

关注

今天

文章 0 评论 0

关注

゛时过境迁

文章 0 评论 0

关注

达拉崩吧

文章 0 评论 0

关注

呆萌少年

文章 0 评论 0

关注

孤者何惧

文章 0 评论 0

友情链接

文江博客

计算字符串被随机化的概率？ - Python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

计算字符串被随机化的概率？ - Python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。