当前位置：文江博客话题详情

PHP algorithm parsing drupal cron

帮助编写一个算法，用于在 cron 运行时索引/解析有限的数据块

发布于 2024-11-28 13:05:34 字数 345 浏览 2 评论 0原文

情况是这样的。我正在废弃一个网站，以使用该网站提供的机器人页面（指向该网站上发布的每篇文章的 URL 列表）从其文章中获取数据。到目前为止，我进行了数据库合并，将 URL“更新插入”到我的表中。我知道每次抓取运行都会花费很长时间，因为有超过 1400 篇文章需要解析。我需要编写一个算法，一次只在 cron 上执行一小部分工作，这样它就不会超载我的服务器等。

编辑：我想我应该提到我正在使用 drupal 7。另外，这个必须是一个随着时间的推移而发生的持续脚本，我不太担心数据库初始填充所需的时间。机器人页面是动态的，随着文章的添加，URL 会定期添加到那里。我目前正在使用 hook_cron() 来实现此目的，但如果有比这更好的方法，我愿意接受更好的方法。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

嗳卜坏 2024-12-05 13:05:34

您可以使用 Drupal 队列操作API 将每个页面排入队列以作为队列项报废。您可以（但不是必需）将您的队列声明为 cron 执行的。然后，Drupal 将负责在每个 cron run 未达到队列声明的最大执行时间。

有关示例，请参阅 aggregator_cron项目排队。和 aggregator_cron_queue_info 用于让 Drupal 在其 cron 期间处理这些排队项目的声明。

如果正常 Drupal cron 期间的队列处理存在问题，您可以借助等待队列或 Beanstalkd 集成。

回复收藏 0 原文

情仇皆在手 2024-12-05 13:05:34

最有可能的是，获取每篇文章的 http 开销将大大超过执行数据库操作的开销。只要不要同时获取太多文章就可以了。大多数网站管理员都不喜欢抓取工具，尤其是当他们进行 10、20、500 多次并行获取时。

回复收藏 0 原文

用心笑 2024-12-05 13:05:34

所以，您的数据库中已经有了这些网址。该表中有一个状态列 - 是否已刮擦。 cron 可以每隔一段时间就开始抓取尚未从表中删除的下一个 url，并将其标记为已删除。

回复收藏 0 原文

~没有更多了~

关于作者

请帮我爱他

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

杨绘峰

文章 0 评论 0

听闻余生

文章 0 评论 0

谜兔

文章 0 评论 0

xiaotwins

文章 0 评论 0

你说

文章 0 评论 0

若能看破又如何

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文