当前位置：文江博客话题详情

wget nutch web-crawler

快速重新抓取网站

发布于 2024-10-10 21:06:21 字数 381 浏览 8 评论 0原文

我正在开发一个系统，该系统必须跟踪几个门户的内容并每晚检查更改（例如下载并索引白天添加的新网站）。该门户的内容将被编入索引以供搜索。问题在于重新抓取该门户 - 第一次抓取门户需要很长时间（门户示例：www.onet.pl、www.bankier.pl、www.gazeta.pl）并且我想重新抓取它更快（尽可能快），例如通过检查修改日期，但我使用wget下载www.bankier.pl，但作为回应，它抱怨没有最后一个- 修改标头。有什么办法可以重新抓取这么多网站吗？我也尝试过使用 Nutch，但重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头（最后修改的）。也许有一种工具，爬虫（如 Nutch 或其他东西）可以通过添加新站点来更新已下载的站点？

此致，沃伊泰克

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

最单纯的乌龟 2024-10-17 21:06:23

我建议使用 curl 仅获取头部并检查 Last-Modified 标头是否已更改。

例子：

 curl --head www.bankier.pl

I recommend using curl to fetch only the head and check if the Last-Modified header has changed.

Example:

 curl --head www.bankier.pl

回复收藏 0 原文

打小就很酷 2024-10-17 21:06:23

对于 Nutch，我写了一篇关于如何使用 Nutch 重新抓取。基本上，您应该为 db.fetch.interval.default 设置设置一个较低的值。下次获取 URL 时，Nutch 将使用上次获取时间作为 If-Modified-Since HTTP 标头的值。

回复收藏 0 原文

~没有更多了~

关于作者

不疑不惑不回忆

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

今天

文章 0 评论 0

゛时过境迁

文章 0 评论 0

达拉崩吧

文章 0 评论 0

呆萌少年

文章 0 评论 0

孤者何惧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文