scraperwiki如何限制执行时间?

发布于 2024-11-08 18:44:23 字数 142 浏览 5 评论 0原文

scraperwiki 如何决定停止预定的运行?是基于实际执行时间还是CPU时间?或者也许是别的什么。

我抓取了一个网站,Mechanize 需要 30 秒才能加载每个页面,但我使用很少的 CPU 来处理页面,所以我想知道服务器的缓慢是否是一个主要问题。

How does scraperwiki decides to stop a scheduled run? Is it based on the actual execution time or the CPU time ? Or maybe something else.

I scrape a site for which Mechanize requires 30s to load every page but I use very few CPU to process the pages, so I wonder if the slowlyness of the server is a major issue.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

無處可尋 2024-11-15 18:44:23

CPU 时间,而不是挂钟时间。它基于 Linux 函数 setrlimit。

每次刮刀运行的处理时间限制为大约 80 秒。之后,在 Python 和 Ruby 中,您将收到异常“ScraperWiki CPU 时间超出”。在 PHP 中,它将以“由 SIGXCPU 终止”结束。

在许多情况下,当您第一次抓取站点以赶上现有数据的积压时,就会发生这种情况。处理它的最佳方法是使用 save_var 和 get_var 函数让您的抓取工具一次执行一个块(请参阅 http://scraperwiki.com/docs/python/python_help_documentation/)来记住你的位置。

这还可以让您更轻松地从其他解析错误中恢复。

CPU time, not wall clock time. It's based on the Linux function setrlimit.

Each scraper run has a limit of roughly 80 seconds of processing time. After that, in Python and Ruby you will get an exception "ScraperWiki CPU time exceeded". In PHP it will end "terminated by SIGXCPU".

In many cases this happens when you are first scraping a site, catching up with the backlog of existing data. The best way to handle it is to make your scraper do a chunk at a time using the save_var and get_var functions (see http://scraperwiki.com/docs/python/python_help_documentation/) to remember your place.

That also lets you recover more easily from other parsing errors.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文