重复数据删除算法

发布于 2024-07-25 13:49:27 字数 113 浏览 5 评论 0原文

我想找到重复数据删除算法,主要是为了查找重复文件。 看起来第一步是识别具有相同时间戳、大小和文件名的文件。 我可以对这些文件进行 MD5 校验和比较。 除此之外,还可以比较文件的内容。 我还应该注意什么?

I'd like to find data deduplication algorithms, mostly to find duplicate files. Looks like the first step is to identify the files with the same timestamps, sizes and file names. I can do an MD5 checksum on those files and compare. In addition to that it is possible to compare the contents of files. What else should I watch for?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

意中人 2024-08-01 13:49:27

您有操作系统元信息(大小和时间戳)。 其他元信息包括权限。 您可以比较 inode 和 dnode 信息,但这没有多大意义。

您有一个摘要(校验和)。

你有逐字节的详细信息。

还能有什么呢? 您还需要其他摘要吗? 摘要的信息量不如逐字节的详细信息。 但您可以轻松地发明许多其他摘要。 仅当您将摘要保存在某个地方,这样您就不会一直重新计算它时,摘要才有用。

如果您想保存“主”副本的摘要,您可以发明任何您想要的摘要。 行数、字母“e”计数、平均行长度,任何东西都是可能有趣的总结。

You have OS meta-information (size and timestamps). Other meta-information includes permissions. You could compare inode and dnode information, but that doesn't mean much.

You have a summary (checksum).

You have byte-by-byte details.

What else could there be? Are you asking for other summaries? A summary is less informative than the byte-by-byte details. But you could easily invent lots of other summaries. A summary is only useful if you save it somewhere so you don't recompute it all the time.

If you want to save summaries for the "master" copy, you can invent any kind of summary you want. Line counts, letter "e" counts, average line length, anything is an potentially interesting summary.

讽刺将军 2024-08-01 13:49:27

md5 存在冲突问题(具有相同 md5 的两个文件仍可能具有不同的内容。)

如果对每个文件执行 SHA-1 哈希并比较哈希值,则只有内容完全相同的文件才会具有相同的哈希值。 时期。

这也有助于忽略它们是否有不同的名称、修改日期等。

有些人更加努力地使用 sha-256,但这确实没有必要。 大多数商业重复数据删除设备都依赖于 SHA-1(也称为 SHA-160)。

如果您使用 SHA-1 来比较文件,则不需要其他任何东西。

我知道这一点是因为我与不同的重复数据删除系统和供应商合作多年,并且我还编写了一个示例重复数据删除系统。

Md5 has collision problems (two files with same md5 may still have different contents.)

If you perform a SHA-1 hash on each file and compare the hashes, only files with the exact same content will have the same hash. Period.

This also helps by ignoring whether they have different names, modification dates, etc.

Some people go the extra mile and use sha-256, but it is really unnecessary. Most of the commercial deduplication appliances rely on SHA-1 (also referred to as SHA-160).

If you use SHA-1 to compare the files, you don't need anything else.

I know this because I have worked with different deduplication systems and vendors for a number of years and I have also written a sample deduplication system.

妞丶爷亲个 2024-08-01 13:49:27

有可用于此目的的产品。 寻找重复文件侦探。 可以通过名称、时间戳、md5等算法进行匹配

There are products available for this. Look for Duplicate File Detective. It can match by name, timestamp, md5 and other algorithms

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文