当前位置：文江博客话题详情

无需完整下载即可读取 zip 文件

发布于 2024-09-10 05:46:58 字数 92 浏览 3 评论 0原文

是否可以在不完全下载 .ZIP 文件的情况下读取其内容？

我正在构建一个爬虫，我不想下载每个 zip 文件只是为了索引它们的内容。

谢谢;

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北城挽邺 2024-09-17 05:46:58

棘手的部分是识别中央目录的开始，它出现在文件的末尾。由于每个条目具有相同的固定大小，因此您可以从文件末尾开始进行二进制搜索。二分搜索试图猜测中央目录中有多少条目。从一些合理的值 N 开始，并在末尾检索文件的该部分 - (N*sizeof(DirectoryEntry))。如果该文件位置不是以中央目录项签名开始，则 N 太大 - 一半并重复，否则，N 太小，加倍并重复。与二分搜索一样，该过程维护当前的上限和下限。当两者相等时，您就找到了 N 的值，即条目数。

您访问网络服务器的次数最多为 16 次，因为条目不能超过 64K。

这是否比下载整个文件更有效取决于文件大小。您可以在下载之前请求资源的大小，如果它小于给定的阈值，则下载整个资源。对于大型资源，如果阈值设置得较高，则请求多个偏移量会更快，并且总体上对网络服务器的负担会更少。

HTTP/1.1 允许下载一定范围的资源。对于 HTTP/1.0，您别无选择，只能下载整个文件。

回复收藏 0 原文