文档比较引擎/搜索

发布于 2024-11-08 23:16:10 字数 233 浏览 7 评论 0原文

我有大量文档文件，包括 .pdf、.one、.doc、.docx 等。我试图找到一种方法来比较文件的文本内容以查找重复项或近似匹配项。我有一个基于 LAMP 堆栈的网站，用户将文件上传到该网站。我可以比较上传的文档或运行 cron 作业。我见过在类似的上下文中提到过 Apache Lucene，Zend Search Lucene 似乎是它的强大 PHP 版本，但它们更面向搜索而不是比较。有没有办法利用这些进行比较？

谢谢，克里斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冷默言语 2024-11-15 23:16:10

我认为比较文件的匹配可能比比较接近的匹配要容易得多。这可能需要结合多种方法。

立即，我会使用类似 hash_file() 来获取文件内容的哈希值。然后，您可以得到文件内容的超短表示，您可以使用它与其他文件哈希进行匹配以查找重复项。您可以尝试散列不同的值或尝试收集有关文件的一些信息，例如 strlen () 或类似的东西用于比较“接近重复”。希望这会有所帮助。听起来确实是一个挑战。

回复收藏 0 原文

~没有更多了~