当前位置：文江博客话题详情

如何以编程方式比较两个存档文件的内容？

发布于 2024-07-13 09:07:40 字数 255 浏览 9 评论 0原文

我正在做一些测试，以确保我使用脚本文件创建的全合一 zip 文件将产生与我必须手动单击并通过 Web 界面创建的几个 zip 文件的内容相同的输出。因此 zip 将具有不同的文件夹结构。

当然，我可以手动将它们提取出来，并使用我强大的眼球技术来扫描它们，或者更懒的我可以编写一个脚本来做到这一点，但在我投入更多时间并被我的老板指控为公司时间抢劫之前，我问是否有更好的方法来做到这一点？

顺便说一句，我正在使用 perl LAMP 堆栈。谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

星軌x 2024-07-20 09:07:40

您可以使用perl的Archive::ZIP 或 Python 的 zipfile 提取文件中文件的文件名、大小和 CRC 校验和档案。创建一个文件，其中包含按文件名排序的结果（忽略路径）。

对于较小的 ZIP，请合并脚本的结果 (cat list1 list2 list3 | sort)。

现在，您可以使用 diff 来比较结果。

回复收藏 0 原文

感性 2024-07-20 09:07:40

我可以全心全意地推荐超越比较。除非你的工资真的很低，否则这对你（老板）来说是最大的收获。

[编辑] 我似乎扫描了不同文件夹结构，对此感到抱歉。Beyond Compare可以比较具有相同文件夹结构的文件夹中的所有文件。它不具备（我相信）在不同文件夹中的文件中搜索匹配项的智能。

问候，
利文

回复收藏 0 原文

陪你到最终 2024-07-20 09:07:40

为您的文件创建一个 crc 校验和。

如果原始文件和解压缩文件的校验和相同，则可以确定这些文件是相同的。甚至适用于非文本数据。

可以使用外部程序（例如“SFV Checker”）或以编程方式（例如，.net/java 包含执行此操作的库）轻松创建校验和。

回复收藏 0 原文

新人笑 2024-07-20 09:07:40

从 Carra 的答案中得到提示...如果 A.zip 是您的单个大存档，而 B.zip 是通过网络生成的存档，则使用以下算法

从 A.zip 中递归提取所有文件（wrt 文件夹）计算提取内容的文件夹中存在的文件的校验和（使用 cksum、md5sum 等），并在排序后保存此信息（通过 管道传输）排序）到文件（例如A.txt）
对 B.zip 执行相同操作并生成 B.txt
将 A.txt 与 B.txt 进行比较，它们应该完全相同。

或者

使用 unzip -l 获取两个 (zip) 存档的文件/目录列表，然后展平用户生成的 zip 文件的层次结构，并使用某些东西与脚本生成的 zip 文件的内容进行比较就像diff。通过扁平化层次结构，我的意思是您可能需要对一个或两个列表进行某种预处理，然后才能与 diff 进行有意义的比较。