当前位置：文江博客话题详情

用于字符串相似度的 Python 摘要/哈希

发布于 2024-12-26 22:00:47 字数 569 浏览 0 评论 0原文

我正在寻找一种算法，可以从较长的字符串生成短（fx 16 个字符（不重要））哈希码/摘要。

主要要求是几乎相同的字符串应该产生相同的摘要。FX

2 几乎相同的邮件：

嗨，马丁。这是给您的一些垃圾邮件。 =>啊啊啊啊啊啊啊啊

嗨博。这里有一些...垃圾邮件给您。问候 EFG。 => AAAA AAAA AAAA AAAA

返回相同的数字（或几乎相同），但作为不同的邮件：

Hello Finn。这是一封测试邮件。 => CCCC CCCC CCCC CCCC

将返回不同的摘要。

该算法将成为垃圾邮件过滤器的一部分。过滤器将记住来自确定为垃圾邮件的邮件的摘要。如果相同的摘要出现在有疑问的邮件中，则相同的摘要将导致过滤器增加垃圾邮件分数。

我了解 Levenshtein，但它要求我预先了解字符串。在这种情况下我没有这些信息。我可以拥有这些信息，但这需要过滤器来存储所有垃圾邮件并检查每封邮件，这将是一个非常缓慢的过程。

也许一些松散的压缩算法加上两者之间的 Levenshtein 距离的计算可以起作用。

任何指示表示赞赏。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

§对你不离不弃 2025-01-02 22:00:47

看起来您想要局部敏感哈希。考虑使用 minhash 或 shingling。 Rajaraman 和 Rajaraman 对此都有很好的解释。 Ullman 的书，挖掘海量数据集。您会在 python 搜索博客中找到上述关键字的大量简短实现。

似乎还有其他方法（我对此不太了解），但这可能会让您感兴趣，因为它们是专门为垃圾邮件量身定制的，特别是 nilsimsa 哈希：

解释在那篇论文中
，有一个 python端口打开pypi

回复收藏 0 原文

~没有更多了~

关于作者

青春有你

暂无简介

文章

27 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

用于字符串相似度的 Python 摘要/哈希

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签