FileCacheQueueScheduler问题
@黄亿华 您好,想跟你请教个问题:用protected Scheduler scheduler = new FileCacheQueueScheduler(),它提示我构造函数未定义,这是为啥?而且如果用这个队列的话,那spider里面是不是很多就要重写了?我是想暂停之后接着之前的任务抓取,还有就是我发现用QueueScheduler会有重复的url被抓取,去重这个问题能给个提示怎么解决吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
FileCacheQueueScheduler应该是自带去重的,但是是对完整url做的去重,参数不同也不会去重,你看看是不是这个原因?
FileCacheQueue这个问题我解决了,忘记加参数了,去重问题怎么办?