关于局部敏感哈希原理的疑惑
看到的解释是说
局部敏感哈希(LSH)是指这样的哈希方法:对两篇文档,如果它们相似,则它们的哈希值有较高的概率是相同的。有了文档的最小哈希签名,我们就能实现这种哈希方法。直观的做法是,将包含 b×r 个值最小哈希签名分为 b 等份,每份 r 个,对两个文档,定义 P 为两个文档至少含有1个相同份的概率,显然,文档间的 Jaccard 相似度越高,哈希签名具有相同值的位数就越多,概率 P 就越大。
还是不太明白,求算法大神能讲得直白一些,最好举例说一下。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我觉得好像就是哈希表里面的冲突。冲突的越多,那么相同的“子块”就越多,因此整体的相似度就越高。