当前位置：文江博客话题详情

通过哈希搜索？

发布于 2024-07-04 03:27:30 字数 197 浏览 13 评论 0原文

我的想法是创建一个搜索引擎，它可以像其他搜索引擎一样对网络项目进行索引，但只会存储文件的标题、URL 和内容的哈希值。

这样，如果您已经拥有某些项目但不知道它们来自哪里或想知道某些内容出现的所有位置，那么您可以轻松地在网络上找到这些项目。

对于图像、可执行文件和档案等非文本项目更有用。

我想知道是否已经有类似的东西了？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

流云如水 2024-07-11 03:27:31

好吧，对于图像，有 http://tineye.com，它会将其加起来，并找到相似的图像也。

回复收藏 0 原文

梦回梦里 2024-07-11 03:27:31

这不是一个坏主意。有时我发现自己偶然发现了一些文件，试图找出它的来源:)但是你将如何跟踪项目的来源呢？内容可以通过多种方式获取 - Web 浏览器、下载管理器，只需从网络共享复制即可。

回复收藏 0 原文

聆听风音 2024-07-11 03:27:31

如果我正确理解您的建议，http://bitzi.com/ 已经这样做了一段时间了。

回复收藏 0 原文

绝不服输 2024-07-11 03:27:30

查看有关位置敏感哈希的维基百科页面。还有由麻省理工学院的一项研究主办的一个很好的页面。

一般来说，有几种可用的风格：字符串的哈希值（例如 simhash）、集合或 0/1 特征（例如 min-wise 哈希），以及实数向量。

到目前为止，数字哈希的主要技巧基本上是降维。对于字符串，我们的想法是提出一种在进行细微编辑时仍能保持稳健的表示形式。

我也在这个领域做了一些研究，尽管我猜想 stackoverflow 可能不是适合新生工作的地方。

回复收藏 0 原文

陪我终i 2024-07-11 03:27:30

这个问题似乎集中在精确匹配哈希上，我们比最近邻方法更好地理解它，并且确实是值得的，特别是如果人们可以通过这种方式共享标签和其他元数据。

正如@rjmunro 所指出的，基于哈希的搜索是 P2P 世界中的一个流行想法，Bitzi 几乎就是这样做的，尽管他们已经关闭，并且他们的 Bitpedia（数字媒体百科全书）也不再托管在那里，尽管其中一些至少在 Archive.org 上仍然可以找到。

Bitzi 还制作了 Bitcollider (SourceForge.net) 等软件，
以及 Magnet URI 方案，它允许通过哈希指定文件，因此是基于内容的标识符。各种应用程序支持通过 Magnet URI 搜索各种数据库，如该维基百科页面所述。

同样的想法在密码破解场景中很流行 - 请参阅 findmyhash - 使用在线服务破解哈希值的 Python 脚本了

更进一步，我认为如果有数据库和在线存储库通过哈希值识别内容并提供关于内容的标签和其他元数据，那就太好不同角度的内容。然后我可以让我的音乐收藏保持原始状态（不会浪费备份空间和时间），但仍然自己标记它们并通过外部标签数据库添加其他元数据。如果我的应用程序知道如何获取标签，那么它似乎比当前的系统要好得多，在当前的系统中，我们修改和复制大文件只是为了将标签从我的桌面移动到我的手机。

请参阅媒体识别的元数据独立散列中的相关想法& P2P 传输优化 (pdf)。