PHP应用程序设计
我必须做一个将废弃大约 100 个 URL 的 Scraper,该 Scraper 必须在由 CronJob 调用的 PHP CLI 中运行。我完全不知道如何管理这个...对于每个 URL,我正在考虑创建一个新文件,以便在必须更新特定 URL 的代码时让事情变得清晰。
这可能是一个不错的选择?那么,可以从单个 CronJob 调用所有这些文件吗?
I have to do a Scraper that will scrap about 100 URL's, the Scraper must to run in a PHP CLI called by a CronJob. I'm totally lost on how to manage this... for each URL I'm thinking to create a new file just to get things clear when I must to update code for a specific URL.
This could be a good option? Then, it is possible to call all this files from a single CronJob?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您希望通过将这 100 个 URL 存储在数据库或文本文件中来轻松管理它们。
然后只需加载所有网址,循环遍历它们并调用您的抓取函数即可。
You would want those 100 urls to be managed easily, by storing them in a database or a text-file.
Then simply load all the urls, loop through them and call your scrape function.
您可以做的是,
维护所有 100 个网址的列表以及别名(可以是任何名称,例如 http://google.com)。
使用以下命名约定“别名.php”为每个 URL 创建文件,编写代码来解析该文件中的 URL。
现在,您可以调用一个 Cronjob,它将从数据库中检索您的所有 URL。您可以循环遍历每个 URL,并使用相应的别名执行文件。
例如。
如果您的网址是:http://google.com,别名是Google。为此,您需要创建名为 Google.php 的文件,编写 Scrapping 代码。在 cron 作业中,您将拥有类似
希望这会有所帮助的代码。
谢谢!
侯赛因
What you can do is,
Maintain the list of all 100 URLs along with the Alias name (could by anything, say 'Google' for http://google.com) in Database.
Create file for each URL with following naming conventions 'Alias name.php', Write code to parse URL in that file.
Now you can invoke one Cronjob which will retrieve all of your URLs from the Database. You can loop through each URL an execute the file with corresponding Alias name.
For example.
If your URL is : http://google.com and Alias for it is Google. For that you need to create file named Google.php, Write the code for Scrapping. In cron job you will have code something like
Hope this will help.
Thanks!
Hussain