雅虎网络抓取:有什么限制?

发布于 2024-08-30 07:46:55 字数 154 浏览 0 评论 0原文

我们正在使用网络抓取工具,并将其设置为具有睡眠功能,该功能设置了随机功能(以便每次抓取之间的时间不同),但在 20-30 个请求后我们仍然被雅虎阻止。

有谁知道是否有限制(即:每分钟 20 个请求,每小时 200 个)现在我们每个请求之间的平均时间约为 3-6 秒。感谢您的帮助

We are using a web scraper and have it set up to have a sleep function which has a random function set up (so that it isn't the same time between each scrape) but we are still getting blocked from Yahoo after 20-30 requests.

Does any one know if there is a limit (i.e: 20 requests per minutes, 200 an hour) Right now our average between each request is around 3-6 seconds. Thanks for any help

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

回梦 2024-09-06 07:46:55

每 3-6 秒 1 个请求非常低,因此您的爬网程序可能存在另一个问题。

一些想法:

  • 将 User-Agent 设置为不可疑的内容
  • 将 Referer 标头设置为同一域
  • 尝试从不同的 IP 运行您的爬虫,以防您当前的 IP 被列入黑名单
  • 尝试维护 cookie

如果您使用更高版本,这一切都会更容易关卡库,例如 Mechanize

1 request every 3-6 seconds is quite low so perhaps there is another problem with your crawler.

A few ideas:

  • set the User-Agent to something non-suspicious
  • set the Referer header to the same domain
  • try running your crawler from a different IP in case your current IP is blacklisted
  • try maintaining cookies

This will all be easier if you use a higher level library like Mechanize.

甜`诱少女 2024-09-06 07:46:55

所以答案是 5000 个查询。摘自

http://forums.digitalpoint.com/showthread.php?t=736784< /a>

http:// 开发人员。雅虎。 com/search/rate.html

So the answer is 5000 queries. Taken from

http://forums.digitalpoint.com/showthread.php?t=736784

http:// developer. yahoo. com/search/rate.html

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文