当前位置：文江博客话题详情

cron 作业周期和工作量

发布于 2024-11-26 17:08:47 字数 364 浏览 1 评论 0原文

我正在从事博客聚合项目。主要任务之一是获取博客的 RSS 提要并对其进行处理。我目前有大约 500 个博客，但数量会随着时间的推移而稳步增加（很快就会达到数千个）。

目前（仍为测试版），我有 cron 作业，每天定期获取所有 RSS 提要。但这使得所有处理和网络 IO 每天只运行一次。

我应该：

保持当前情况（一次全部）
每小时获取 number_of_blogs / 24（恒定的 cron 作业计时）
更改 cron 周期以获取恒定数量的 RSS（每隔更短的时间获取 10 个博客）

还是还有其他想法？

我使用共享主机，因此非常感谢减少 CPU 和网络 IO :)

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

晨与橙与城 2024-12-03 17:08:47

我使用了一个适应提要更新频率的系统，如

如果您使用条件 HTTP GET 来检索支持它的提要，则可以节省资源。保留 HTTP 响应中 Last-Modified 和 ETag 标头的值。下次尝试在 If-Modified-Since 和 If-None-Match 请求标头中提供它们的值。

现在，如果您收到 HTTP 304 响应代码，您就知道 Feed 尚未更改。在这种情况下，完整的提要不会再次发送，只有标题告诉您没有新帖子。这减少了带宽和数据处理。

回复收藏 0 原文

狼性发作 2024-12-03 17:08:47

我有类似的情况，但没有那么多博客:)我过去每 24 小时导入一次，但为了节省 CPU 负载，我在每个博客后使用 sleep() ，例如 sleep( 10);它保证了我的安全。

回复收藏 0 原文

戏舞 2024-12-03 17:08:47

我会考虑使用 Google App Engine 来检索和处理“原始”信息，并将其以可管理大小的数据包发布到网络服务器。 GAE有自己的cron作业系统，可以24/7独立运行。

目前正在使用类似的系统从多个网站检索工作信息并将其编译为另一种抵消带宽和工作量的绝妙方法。加工要求也是如此。

回复收藏 0 原文

~没有更多了~

关于作者

动次打次papapa

暂无简介

0 文章

0 评论

23 人气

关注发私信

小瓶盖

文章 0 评论 0

关注

wxsp_Ukbq8xGR

文章 0 评论 0

关注

1638627670

文章 0 评论 0

关注

仅一夜美梦

文章 0 评论 0

关注

夜访吸血鬼

文章 0 评论 0

关注

近卫軍团

文章 0 评论 0

友情链接

文江博客

cron 作业周期和工作量

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者