在Python中为大文件创建校验和的最快方法

发布于 2024-08-07 04:41:52 字数 504 浏览 12 评论 0原文

我需要通过网络传输大文件，并且需要每小时为它们创建校验和。所以生成校验和的速度对我来说至关重要。

不知何故，我无法使 zlib.crc32 和 zlib.adler32 在 Windows XP Pro 64 位计算机上处理大于 4GB 的文件。我怀疑我已经达到了 32 位限制？使用 hashlib.md5 我可以获得结果，但问题是速度。生成 4.8GB 文件的 md5 大约需要 5 分钟左右。任务管理器显示该进程仅使用一个核心。

我的问题是：

有没有办法让 crc 处理大文件？我更喜欢使用 crc 而不是 md5，
如果不是的话，有没有办法加快 md5.hexdigest()/md5.digest 的速度？或者在这种情况下有任何 hashlib hexdigest/digest？也许将其分成多线程进程？我该怎么做？

PS：我正在开发类似“资产管理”系统的东西，有点像svn，但资产由大型压缩图像文件组成。这些文件有微小的增量更改。需要散列/校验和来检测更改和错误检测。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

乖不如嘢 2024-08-14 04:41:52

这是算法选择问题，而不是库/语言选择问题！

似乎主要考虑两点：

磁盘 I/O 对整体性能的影响有多大？
错误检测功能的预期可靠性是多少？

显然，第二个问题的答案类似于“允许一些误报”，因为相对于 4Gb 消息，即使在适度的情况下，任何 32 位哈希的可靠性也是如此。嘈杂的通道，实际上并不是绝对的。

假设可以通过多线程改进 I/O，我们可以选择不需要顺序扫描完整消息的哈希。相反，我们可以并行处理文件，对各个部分进行散列，然后组合散列值或附加它们，以形成更长、更可靠的错误检测设备。

下一步可能是将文件的处理形式化为有序部分，并按顺序传输它们（在接收者端重新粘合在一起）。这种方法以及有关文件生成方式的附加信息（例如，它们可以通过附加进行专门修改，如日志文件），甚至可以允许限制所需的哈希计算量。这种方法增加的复杂性需要与快速 CRC 计算的愿望相权衡。

旁注：Alder32 不限制消息大小低于特定阈值。这可能只是 zlib API 的限制。（顺便说一句，我找到的关于 zlib.adler32 的参考文献使用了缓冲区，而且......在我们的巨大消息的上下文中应该避免这种方法，有利于流式处理：从文件中读取一点，计算，重复。 .)

回复收藏 0 原文

晨与橙与城 2024-08-14 04:41:52

首先，任何 CRC 算法都没有固有的东西可以阻止它们处理任意长度的数据（但是，特定的实现很可能会施加限制）。

但是，在文件同步应用程序中，这可能并不重要，因为您可能不想在文件变大时对整个文件进行哈希处理，无论如何都只是块。如果对整个文件进行哈希处理，并且两端的哈希值不同，则必须复制整个文件。如果您散列固定大小的块，那么您只需复制散列已更改的块。如果对文件的大部分更改都是本地化的（例如数据库），那么这可能需要更少的复制（并且更容易将每个块计算分散到多个核心）。

至于哈希算法本身，基本的权衡是速度与避免冲突（两个不同的数据块产生相同的哈希值）。 CRC-32 速度很快，但只有 2^32 个唯一值，可能会出现冲突。 MD5 慢得多，但有 2^128 个唯一值，因此几乎不会出现冲突（但理论上仍然有可能）。较大的哈希值（SHA1，SHA256，...）具有更多的唯一值，但速度仍然较慢：我怀疑您需要它们：您担心意外冲突，不像数字签名应用程序，您担心故意（恶意）设计的碰撞。

听起来您正在尝试做一些与 rsync 实用程序非常相似的事情。你可以只使用rsync吗？

回复收藏 0 原文