nutch 爬虫 - 如何设置每个主机的最大内链数

发布于 2024-09-25 23:20:03 字数 61 浏览 8 评论 0原文

如何设置每个主机索引的最大页数？我不想索引网站的所有百万个页面，我只想索引前 100000 个找到的页面。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

若有似无的小暗淡 2024-10-02 23:20:03

当深度 = 10 和 topN = 1000 时，索引中的文档不会超过 10000 个（如果不重新抓取）。 “深度”参数指示 Nutch 将运行多少次迭代。 “topN”参数控制在一次迭代期间最多获取多少个 url。因此，将“深度”乘以“topN”即可得出将索引的网址数量的近似值。这是一个近似值，因为您的 url 可能会超时或返回 404。

如果您不想重新抓取，请确保将“db.fetch.interval.default”设置为足够高的值爬网作业完成。如果在该时间间隔到期时爬网作业尚未完成，那么您将开始重新爬网某些 url，因此索引的 url 数量将小于深度*topN。

回复收藏 0 原文

~没有更多了~