从爬网站点中提取图形（ARC 文件）

发布于 2024-09-06 02:06:20 字数 134 浏览 16 评论 0原文

我正在处理由 Heritrix 爬网生成的 ARC 文件。当我在 Wayback Machine 中查看这些页面时，看起来大部分图形都是从我的本地计算机加载的，因此我假设这些图形存储在 ARC 文件中。这是正确的吗？如果是这样，提取图像的最佳方法是什么？

需要登录才能够评论，你可以免费注册一个本站的账号。

尽揽少女心 2024-09-13 02:06:20

我找到了一个解决方案，一个名为 arc_extractor 的 Perl 脚本：
https://wiki.lib.umn.edu/wupl/DI2。 HowToCrawl/arc_extractor.txt

它提取 ARC 文件中的所有文件，根据接收文件的站点按文件夹分隔。是的，它确实包含图像文件。

该脚本不太优雅......所以如果有人有任何其他建议，我有兴趣了解它们。

~没有更多了~

暂无简介

文章

26 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0