在nutch 1.3中如何使用不同的计划爬行重新爬行不同的网站?
我有很多网站;有些内容每月都会变化,有些内容每天都会变化。 nutch 1.3 之前已经抓取过它们,现在我想用不同的计划抓取来重新抓取它们。 我怎样才能做到这一点? 谢谢。
I have many sites; contents of some change every month and content of some change every day. nutch 1.3 crawled them befor now i want to recrawl them with different scheduled crawling.
how i can do that?
thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以编写一个shell脚本,在其中指定用于运行爬虫的命令名称,并在linux中使用cron命令来安排该脚本的执行。
http://www.thegeekstuff.com/2011/07/cron-每5分钟/
甚至谷歌也会在一段时间间隔后重复抓取整个网络。
You can write a shell script in which you can specify the command names which you use to run crawler and use cron command in linux to scedule the execution of this script.
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
Even google crawls the whole web repeatedly after some interval of time.
您可以为种子文件中的每个条目指定获取间隔(两次连续抓取之间的时间),如下所示:
如果您使用的是
AdaptiveFetchSchedule
,则上述条目只需设置每次重新抓取后的起始间隔,具体取决于是否页面更改或不更改此间隔将增加或减少。在这种情况下,如果您始终需要固定间隔,则可以在上面几行中使用nutch.fetchInterval.fixed
而不是nutch.fetchInterval
。You can specify fetch interval (time between two consecutive crawls) for each entry in your seed file like this:
If you are using
AdaptiveFetchSchedule
the above entries just set the starting interval and after each recrawl depending on whether the page is changed or not this interval will be increased or decreased. In this case, if you always want a fixed interval you can usenutch.fetchInterval.fixed
instead ofnutch.fetchInterval
in above lines.