当前位置：文江博客话题详情

使用 cron 编写 PHP 网络爬虫

发布于 2024-10-11 14:49:19 字数 218 浏览 3 评论 0原文

我使用 simplehtmldom 为自己编写了一个网络爬虫，并且爬行过程运行得很好。它抓取起始页面，将所有链接添加到数据库表中，设置会话指针，元刷新页面以进入下一页。这种情况一直持续下去，直到链接用完为止。

这工作得很好，但显然较大网站的抓取时间相当乏味。不过，我希望能够加快速度，并可能使其成为一项计划任务。

除了设置更高的内存限制/执行时间之外，还有什么想法可以使其尽可能快速和高效？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

堇年纸鸢 2024-10-18 14:49:19

看起来您正在网络浏览器中运行脚本。您可以考虑从命令行运行它。您可以执行多个脚本同时对不同页面进行爬取。这应该会加快速度。

回复收藏 0 原文

够运 2024-10-18 14:49:19

内存对于爬虫来说一定不是问题。

完成一页并将所有相关数据写入数据库后，您应该删除为此作业创建的所有变量。

100 页后的内存使用量必须与 1 页后的内存使用量相同。如果情况并非如此，请找出原因。

您可以在不同的进程之间分配工作：通常解析页面并不需要加载它那么长时间，因此您可以将找到的所有链接写入数据库，并让多个其他进程将文档下载到临时目录。
如果您这样做，您必须确保

工作人员不会下载任何链接。
如果没有，您的进程将等待新链接。
每次扫描后都会删除临时文件。
当链接用完时，下载过程就会停止。您可以通过设置“kill flag”来存档它，这可以是具有特殊名称的文件或数据库中的条目。

回复收藏 0 原文

~没有更多了~

关于作者

哽咽笑

暂无简介

0 文章

0 评论

23 人气

关注发私信

linfzu01

文章 0 评论 0

关注

§对你不离不弃

文章 0 评论 0

关注

可遇━不可求

文章 0 评论 0

关注

枕梦

文章 0 评论 0

关注

qq_3LFa8Q

文章 0 评论 0

关注

JP

文章 0 评论 0

友情链接

文江博客

使用 cron 编写 PHP 网络爬虫

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签