LSH和MINHASING-为什么哈希签名矩阵有意义?

发布于 2025-01-23 13:09:47 字数 340 浏览 4 评论 0原文

学习哈希签名矩阵的合理理性:

我们将签名矩阵划分为频段,我们哈希(使用哪个哈希函数?)将列的每个部分分为k buckets。为什么有意义?如果我们使用常规哈希函数,那么即使在两列中有轻微的差异也可能导致不同的存储桶。

我确实了解签名矩阵与雅卡德距离之间的关系,但是我不明白下一步本质上是均匀分布项目的哈希。

I'm learning about LSH and minhashing and I'm trying to understand the rational of hashing the signature matrix:

We divide the signature matrix to bands and we hash (using which hash function?) every portion of column to k buckets. Why would it make sense? If we use a regular hash function then even a slight difference in two columns would probably lead to different buckets.

I do understand the relation between the signature matrix to Jacard distance but I don't understand the next step which is essentially hashing that distributes items evenly.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文