当前位置：文江博客话题详情

对于网络爬虫来说，合适的更新间隔是多少？

发布于 2024-09-09 02:18:14 字数 126 浏览 10 评论 0原文

我目前正在开发自己的小型网络爬虫，并且想知道...

网络爬虫再次访问相同网站的合适间隔是多少？

您应该每天重新访问一次吗？每小时一次？我真的不知道...有人在这件事上有经验吗？也许有人可以指出我正确的方向？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

哽咽笑 2024-09-16 02:18:14

我认为你的爬虫访问需要是有机的。

我首先每周抓取一次列表，
当网站内容发生变化时，将其设置为每周抓取两次，
[然后]当您看到更频繁的更改时，您会更频繁地抓取。

该算法需要足够智能，能够了解一次性编辑和频繁站点更改之间的区别。

另外，永远不要忘记关注Robots.txt...这是您爬行时应该访问的第一个页面，您需要首先尊重它的内容。

回复收藏 0 原文

分开我的手 2024-09-16 02:18:14

这将取决于您正在抓取的网站以及您对结果的处理方式。

例如，有些人不会反对相当频繁的访问频率，但其他人可能会限制您每天只能访问一次。

许多网站都热衷于保护自己的内容（默多克和新闻国际谴责谷歌并将《泰晤士报》（英国）置于付费专区就是明证），因此他们对爬虫持不信任的态度。

如果您只想抓取几个网站，那么值得联系网站所有者并解释您想要做什么并查看他们的回复。如果他们确实回复，请尊重他们的意愿并始终遵守robots.txt文件。

回复收藏 0 原文

·深蓝 2024-09-16 02:18:14

即使一个小时也可能是不礼貌的，具体取决于您正在抓取哪些网站以及强度。我假设您这样做是为了练习，所以请帮助拯救世界，并将自己限制在为处理巨大负载而构建的网站上，然后只首先获取 HTTP 标头，看看您是否需要获取该页面。

更礼貌的做法是首先使用 wget 抓取有限的集合，将其存储在本地并根据缓存进行爬网。

如果你不是把这个作为练习，那么就没有理由这样做，因为它已经造成了死亡，并且 interwebz 不需要另一个。

回复收藏 0 原文

~没有更多了~

关于作者

罗罗贝儿

暂无简介

文章

26 人气

关注发私信

15077827184

文章 0 评论 0

关注

遗失的美好

文章 0 评论 0

关注

离不开的别离

文章 0 评论 0

关注

3857621955

文章 0 评论 0

关注

懒猫

文章 0 评论 0

关注

洋洋洒洒

文章 0 评论 0

友情链接

文江博客

对于网络爬虫来说，合适的更新间隔是多少？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

15077827184

遗失的美好

离不开的别离

3857621955

懒猫

洋洋洒洒

友情链接

对于网络爬虫来说，合适的更新间隔是多少？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

15077827184

遗失的美好

离不开的别离

3857621955

懒猫

洋洋洒洒

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。