当前位置：文江博客话题详情

scraperwiki如何限制执行时间？

发布于 2024-11-08 18:44:23 字数 142 浏览 8 评论 0原文

scraperwiki 如何决定停止预定的运行？是基于实际执行时间还是CPU时间？或者也许是别的什么。

我抓取了一个网站，Mechanize 需要 30 秒才能加载每个页面，但我使用很少的 CPU 来处理页面，所以我想知道服务器的缓慢是否是一个主要问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

無處可尋 2024-11-15 18:44:23

CPU 时间，而不是挂钟时间。它基于 Linux 函数 setrlimit。

每次刮刀运行的处理时间限制为大约 80 秒。之后，在 Python 和 Ruby 中，您将收到异常“ScraperWiki CPU 时间超出”。在 PHP 中，它将以“由 SIGXCPU 终止”结束。

在许多情况下，当您第一次抓取站点以赶上现有数据的积压时，就会发生这种情况。处理它的最佳方法是使用 save_var 和 get_var 函数让您的抓取工具一次执行一个块（请参阅 http://scraperwiki.com/docs/python/python_help_documentation/）来记住你的位置。

这还可以让您更轻松地从其他解析错误中恢复。

回复收藏 0 原文

~没有更多了~