FileCacheQueueScheduler问题

发布于 2021-11-26 02:38:37 字数 300 浏览 911 评论 2

@黄亿华 您好,想跟你请教个问题:用protected Scheduler scheduler = new FileCacheQueueScheduler(),它提示我构造函数未定义,这是为啥?而且如果用这个队列的话,那spider里面是不是很多就要重写了?我是想暂停之后接着之前的任务抓取,还有就是我发现用QueueScheduler会有重复的url被抓取,去重这个问题能给个提示怎么解决吗?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

清晨说ぺ晚安 2021-11-26 03:12:50

FileCacheQueueScheduler应该是自带去重的,但是是对完整url做的去重,参数不同也不会去重,你看看是不是这个原因?

甜柠檬 2021-11-26 02:48:00

FileCacheQueue这个问题我解决了,忘记加参数了,去重问题怎么办?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文