当前位置：文江博客话题详情

是否有一种可以容忍微小差异的哈希算法？

发布于 2024-11-01 03:43:00 字数 141 浏览 1 评论 0原文

我正在做一些网络爬行类型的工作，在网页中查找某些术语并找到它们在页面上的位置，然后将其缓存以供以后使用。我希望能够定期检查页面是否有任何重大更改。像 md5 这样的东西可以通过简单地将当前日期和时间放在页面上来阻止。

有没有适用于这样的事情的哈希算法？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

南风几经秋 2024-11-08 03:43:00

进行文档相似度的常见方法是 shingling ，这比哈希更复杂一些。另请参阅内容定义的分块以获取拆分文档的方法。

几年前我读过一篇关于使用布隆过滤器进行相似性检测的论文。使用布隆过滤器优化 Web 搜索结果。这是一个有趣的想法，但我从未抽出时间去尝试。

回复收藏 0 原文

避讳 2024-11-08 03:43:00

这可能是使用Levenshtein 距离度量的好地方，它量化了所需的编辑量将一个序列转换为另一个序列。

这种方法的缺点是您需要保留每个页面的全文，以便稍后进行比较。另一方面，使用基于哈希的方法，您只需存储某种小的计算值，不需要以前的全文进行比较。

您还可以尝试某种混合方法 - 让散列算法告诉您已进行任何更改，并将其用作触发器来检索文档的存档副本以进行更严格的（Levenshtein）比较。

回复收藏 0 原文

鼻尖触碰 2024-11-08 03:43:00

http://www.phash.org/ 对图像做了类似的操作。要点：拍摄一张图像，对其进行模糊处理，将其转换为灰度，进行离散余弦变换，然后仅查看结果的左上象限（重要信息所在的位置）。然后为每个小于平均值的值记录 0，为每个大于平均值的值记录 1。对于小的改变来说，结果相当不错。

最小散列是另一种可能性。查找文本中的特征并将其记录为值。连接所有这些值以形成哈希字符串。

对于上述两种情况，请使用有利点树，以便您可以搜索近距离命中。

回复收藏 0 原文

沙沙粒小 2024-11-08 03:43:00

很遗憾地说，哈希算法是精确的。没有人能够容忍微小的差异。你应该采取另一种方法。

回复收藏 0 原文

~没有更多了~

关于作者

自找没趣

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

是否有一种可以容忍微小差异的哈希算法？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

是否有一种可以容忍微小差异的哈希算法？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。