恢复损坏的 zip 或 gzip 文件？

发布于 2024-07-05 05:56:51 字数 320 浏览 16 评论 0原文

损坏压缩文件的最常见方法是无意中进行 ASCII 模式 FTP 传输，这会导致 CR 和/或 LF 字符的多对一废弃。

显然，存在信息丢失的情况，解决这个问题的最好方法就是重新传输，以FTP二进制模式。

但是，如果原始数据丢失，而且这很重要，那么数据如何恢复？

[实际上，我已经知道我认为最好的答案是什么（这非常困难，但有时是可能的 - 我稍后会发布更多），以及常见的非答案（许多现成的程序用于修复 CRC 而不修复数据）），但我认为在 stackoverflow beta 期间尝试这个问题会很有趣，看看是否有其他人走上了成功恢复的道路或发现了我不知道的工具。]

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

演多会厌 2024-07-12 05:56:52

您可以尝试编写一个小脚本，将所有 CR 替换为 CRLF（假设垃圾的方向是 CRLF 到 CR），每个块随机交换它们，直到获得正确的 crc。假设数据不是特别大，我猜想在宇宙热寂完成之前可能不会使用所有的 CPU。

由于肯定存在信息丢失，我不知道有更好的方法。 CR 到 CRLF 方向的丢失可能会更容易回滚。

回复收藏 0 原文

甜警司 2024-07-12 05:56:51

来自Bukys软件

已知大约 256 字节中有 1 个
会腐败，而腐败就是
已知仅以字节形式出现
值“\012”。所以字节错误率
为 1/256（输入的 0.39%）和 2/256
字节（输入的 0.78%）是可疑的。
但由于每次只粉碎了三位
字节受到影响，误码率
只有 3/(256*8)：0.15% 不好，0.29%
值得怀疑。
...
压缩输入错误
扰乱解压过程
所有后续字节...事实是
解压后的输出是
这么快就坏了是原因
为了希望——寻找正确的东西
答案可以识别错误答案
快点。
最终，我们采用了多种技术
结合成功提取
这些文件中的合理数据：
特定于域的字段和带引号的字符串的解析
机器从先前的数据中学习，损坏的可能性很低
对由于其他原因造成的文件损坏的容忍度（例如磁盘已满而
记录）
用于引导沿着最高概率路径进行搜索的前瞻
这些技术可识别 75%
确定必要的维修，以及
其余部分正在探索中
最高概率优先，因此
合理的重建是
立即识别。