当前位置：文江博客话题详情

比较大型文本文件 - 比较哈希值是否比使用文件子集更快？

发布于 2024-12-08 05:32:58 字数 415 浏览 0 评论 0原文

假设我有两个大（文本）文件，据称它们是相同的，但我想确定一下。整个哈利波特系列的“成人”和“儿童”版本也许......

如果全文的字符串表示太大而无法一次保存在内存中，那么是否会更快：

a) 对两个文件进行完整哈希处理，然后测试哈希值是否相同

，或者

b) 读取每个文件的可管理块并进行比较，直到达到 EOF 或发现不匹配

换句话说，比较 2 是否方便小散列是偏移生成所述哈希值所需的时间？

我期待几个“这取决于”答案，所以如果你想要一些假设：

语言是 .NET 中的 C#
文本文件是 3GB 每个
哈希函数是 MD5
最大“备用”RAM 是 1GB

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

-柠檬树下少年和吉他 2024-12-15 05:32:58

MD5 校验和会比较慢，因为您需要处理两个文件才能获得结果。你说你有 3GB 文件，只有 1GB 空闲内存，你可以进行数学计算。
在字节块中检查它们实际上会更早地确定任何差异，也可以通过检查文件大小、文件长度等...

我会选择选项 2。

回复收藏 0 原文

听风念你 2024-12-15 05:32:58

假设您将来不再使用哈希信息（与其他文本进行比较，或在未来可能发生更改后进行检查），那么有两种情况：
A）文件相同
B) 文档不同

如果是 A，那么这两种情况几乎没有区别。两者都涉及一次读取整个文件的一个块，并对每个字节进行计算/比较。与读取文件的工作相比，哈希的计算开销是最小的。

如果是 B，那么您可能会在文件的第一页中发现差异，此时您可以退出该进程。

因此，根据 A v B 的相对概率，平均而言比较似乎会更快。另请注意，您可以报告更改发生的位置，而在哈希场景中则无法报告。

回复收藏 0 原文

森罗 2024-12-15 05:32:58

选项 A 仅在您重用哈希（即有其他文件进行比较）时才有用，这样计算哈希的成本就不是一个因素...

否则选项 B 就是我想要的...

为了获得最大值速度我会使用 MemoryMappedFile 实例和 XOR内容——比较可以在第一次遇到差异时停止（即 XOR 运算返回某些内容！= 0）。关于内存消耗，您可以使用“移动窗口”（即通过调用 CreateViewAccessor ），这将允许逐字处理 TB 大小的文件...

甚至值得测试 XOR 的性能与一些基于 LINQ 的比较方法相比...并且始终从比较文件大小开始，这样您就可以避免进行不必要的计算...

回复收藏 0 原文

~没有更多了~

关于作者

遇见了你

暂无简介

0 文章

0 评论

24 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

比较大型文本文件 - 比较哈希值是否比使用文件子集更快？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签