Web Scraper：限制单个域上每分钟/小时的请求数？

发布于 2024-12-10 13:35:31 字数 742 浏览 2 评论 0 原文

我正在与一位图书管理员合作，重新构建其组织的数字摄影档案。

我用 Mechanize 和 BeautifulSoup 从集合中提取约 7000 个结构不良且轻微不正确/不完整的文档。数据将被格式化为电子表格，他可以用它来纠正它。现在，我估计总共有 7500 个 HTTP 请求来构建搜索字典，然后收集数据，这还不包括代码中的错误和重做，随着项目的进展，还会有更多请求。

我假设我发出这些请求的速度存在某种内置限制，即使没有，我也会让我的机器人延迟，以礼貌地对待负担过重的网络服务器。我的问题（诚然不可能完全准确地回答）是在遇到内置速率限制之前我可以多快发出 HTTP 请求？

我不想发布我们的域的 URL重新抓取，但如果相关的话我会问我的朋友是否可以分享。

注意：我意识到这不是解决我们问题（重新构建/组织数据库）的最佳方法，但我们正在构建一个概念验证来说服上级相信我的朋友有一份数据库副本，他将通过该数据库浏览必要的官僚机构，以便我可以直接处理数据。

他们还为我们提供了 ATOM feed 的 API，但它需要关键字来搜索，并且对于逐步浏览特定集合中的每张照片的任务来说似乎毫无用处。

原文