当前位置：文江博客话题详情

批量比较/区分 HTML 的工具

发布于 2024-09-07 18:16:34 字数 175 浏览 8 评论 0原文

我有很多从服务器上抓取的 HTML 文件（价值 10,000 个和 GB），我想检查以确保服务器在进行一些修改后产生相同的结果，但忽略一些无关紧要的差异，例如空格，缺少换行符、时间戳、某些数字的微小变化等。

有谁知道有一个工具可以做到这一点？我真的不想做不必要的过滤。

（哦，它需要在linux下运行）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

剩余の解释 2024-09-14 18:16:34

您可以考虑使用克隆检测器，例如我们的 CloneDR。该工具解析大量计算机程序（HTML 是特例）文件，构建表示每个文件基本结构的抽象语法树，并比较程序的相似性。
因为它是比较本质的程序结构，所以它忽略注释和空格等无关紧要的差异，并确定两个代码段是相同的，或者可以通过替换其他代码块从另一个代码段获得一个代码段。后者允许识别以各种方式修改的代码。您可以在网站上查看在各种计算机语言上运行的克隆检测示例。

在您的情况下，您要查找的是系统 A 中的文件，这些文件本质上是系统 B 中文件的克隆（精确或几乎未命中）。作为一般规则，如果文件 a 是一个变体文件b（例如，进行一些更改）的CloneDr 会将其报告为克隆并显示确切的差异。

在 20,000 个文件的规模上，我可以理解为什么您需要一个工具，并且我可以理解为什么您需要近似匹配而不是精确匹配。

不能在 Linux 下运行，但我认为你的问题很难解决，所以这不是你要优化的。

回复收藏 0 原文