将物理磁盘转储到文件上并同时对其进行哈希处理

发布于 2024-11-02 17:08:36 字数 563 浏览 1 评论 0原文

我创建了一个 WPF 应用程序，它将物理设备（硬盘、USB 大容量存储）读取到文件中。 HD 的速度可达 75-80 MB/s，USB 的速度可达 20-25 MB/s。我想动态添加图像的 MD5 和 SHA1 哈希值。基本上，我从磁盘读取 128 个扇区 (64Kb) 的块，使用两个算法对其进行哈希处理，然后将该块写入另一个文件。

嗯，这两个哈希函数似乎是一个巨大的瓶颈。 USB 速度降至 5 Mb/s，HD 速度降至 20 Mb/s。

所以我尝试将 hasing 代码放在另一个线程中。因此，一个线程读取块并将值放入 FIFO 列表（使用 List 制作）中。然后另一个线程弹出一个块并拥有它。问题在于，从磁盘读取的线程比散列读取的速度更快，并且列表会呈指数增长。所以我将列表限制为 1024 个块。当第一个线程看到列表有 1024 个块或更多时，它会休眠直到达到 512 个……

这似乎在前几秒钟有效。我的 USB 速度为 19 Mb/s。但过了一会儿，它又会变慢。我想它填满了列表，并且正在等待它有一些空间......

也许我的 hasing 函数很慢？我把网上找到的第一个复制过来了... 如何提高申请速度？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冷血 2024-11-09 17:08:36

显然，如果有足够的时间，吞吐量将受到流程中较慢部分性能的限制。使 IO 与散列异步的优点在于您可以使两个进程一起运行，而不是您会神奇地比其中任何一个进程更快。

很难知道为什么你的散列如此慢，但是 .NET 包含 MD5 和 SHA 实现，因此你不需要编写自己的散列。

据推测，如果您有两个线程访问一个列表（队列或并发队列可能更好），那么您就对其进行了一些锁定。您确定没有在一个线程上长时间持有锁，从而导致另一个线程被阻塞吗？

理想情况下，您需要运行某种分析器，但您也许可以使用秒表和一些跟踪来弄清楚发生了什么。

回复收藏 0 原文

乖不如嘢 2024-11-09 17:08:36

您可以在此处
尝试非加密哈希函数
它们应该比加密的更快

回复收藏 0 原文

半衬遮猫 2024-11-09 17:08:36

这是一个相对简单但有趣的性能谜题，不是吗？

在我看来，您在哈希算法实现中确实遇到了 CPU 瓶颈。对于高性能哈希算法，不要只是随机复制某些内容，而是使用 System.Security.Cryptography 中的标准类，例如 SHA1CryptoServiceProvider 和 MD5CryptoServiceProvider。

如果您有多个可用核心，请考虑将哈希工作拆分为单独的线程。作为一般经验法则，对于 n 个核心^* 使用 n+1 线程；如果您有多线程核心（例如 Intel HT），则使用它们可能会提高或降低性能。任务并行库可能对此提供帮助，特别是因为输入读取循环可以轻松重写为迭代器。

^* 例如，在 Pentium IV Prescott 芯片上，在标准比特币客户端中使用两个内核会损失大约 10% 的性能，该客户端主要位于运行哈希的循环中。