当前位置：文江博客话题详情

我应该如何安排一天内多次 Google 搜索抓取？

发布于 2024-10-12 02:39:21 字数 368 浏览 8 评论 0原文

目前，我的 Nokogiri 脚本会迭代 Google 的 SERP，直到找到目标网站的位置。它对每个用户指定的每个网站的每个关键字执行此操作（用户可以跟踪的网站和关键字的数量受到限制）。

目前，它每天都在硬排程的 rake 中运行，并通过循环遍历数据库中的所有网站来一次性批量处理所有抓取内容。但我担心可扩展性以及向 Google 发送大量请求。

我想要一个可以扩展并可以在一天中运行这些抓取的解决方案。我不确定有什么可用的解决方案或我真正在寻找什么。

注意：随着用户添加和删除网站和关键字，网站/关键字的数量每天都会发生变化。我并不是想让这个问题变得多余，但这就是 Beanstalkd/Stalker（作业队列）可以用来做的事情吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

生来就爱笑 2024-10-19 02:39:21

您必须平衡两个问题：大量用户的可扩展性与谷歌因违反其使用条款而关闭您的问题。

因此，您的系统需要能够将任务分配到各种不同的 IP，以隐藏您的批量抓取，这表明至少有两级排队。一个管理所有作业并将它们发送到每个单独的 IP 以进行后续搜索和收集结果，并在每台单独的计算机上进行队列以保存请求的搜索，直到执行它们并返回结果。

我不知道谷歌的阈值是什么（我确信他们不会宣传它），但超过它们并被切断显然会对你想要做的事情造成毁灭性的影响，所以你的简单循环耙子任务正是你不应该做的达到一定数量的用户后才进行。

所以，是的，使用某种队列，但要意识到您的目标可能与队列的典型目标不同，因为您想要故意延迟作业而不是卸载单词以避免 UI 延迟。因此，您将寻求减慢队列速度的方法，而不是让它在作业到达队列时只执行一个又一个作业。

因此，根据对 DelayedJob 和 BackgroundJobs 的粗略检查，看起来 DelayedJob 具有您需要的 run_at 属性。但我在这里只是猜测，我相信专家会有更多话要说。

回复收藏 0 原文

安穩 2024-10-19 02:39:21

如果我理解正确的话，听起来这些工具之一可能符合要求：

Delayed_job：https://github。 com/tobi/delayed_job

或

后台作业：http://codeforpeople.rubyforge.org /svn/bj/trunk/README

我已经使用过它们，并且发现它们很容易使用。

回复收藏 0 原文

寄离 2024-10-19 02:39:21

肯定有一些后台作业库可能有效。

delayed_job：https://github.com/collectiveidea/delayed_job（注意来自 tobi 的未维护分支！）
resque：https://github.com/defunkt/resque

但是，您可能会考虑只安排一个在运行期间运行更多次的 Cron 作业。日，并且每次运行处理的项目较少。

回复收藏 0 原文

因为看清所以看轻 2024-10-19 02:39:21

SaaS 解决方案：http://momentapp.com/“通过计划的 http 请求启动延迟作业”- 测试版中的免责声明 a) b) 我不隶属于此服务

回复收藏 0 原文

~没有更多了~

关于作者

落在眉间の轻吻

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

我应该如何安排一天内多次 Google 搜索抓取？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

我应该如何安排一天内多次 Google 搜索抓取？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

束缚ｍ

alipaysp_VP2a8Q4rgx

α

一口甜

厌味

转身泪倾城

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。