如何停止webmagic的链接管理的去重
我在抓取的软件是这样的,url只有一个,但是每次通过post请求设置不同的参数值来获取不同的内容,但是因为Scheduler的去重使得post请求只进行了一次,那么请问我如何关闭Scheduler的去重功能呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我在抓取的软件是这样的,url只有一个,但是每次通过post请求设置不同的参数值来获取不同的内容,但是因为Scheduler的去重使得post请求只进行了一次,那么请问我如何关闭Scheduler的去重功能呢?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(4)
知道了,就是实现DuplicateRemover接口,然后啥都不干,哈哈
引用来自“黄亿华”的评论
WebMagic通过DuplicateRemover来去重,你可以重写一个什么都不做的DuplicateRemover来不去重。
spider.setScheduler(new QueueScheduler().setDuplicateRemover(new DonothingDuplicateRemover())
)
谢谢您的回答!
WebMagic通过DuplicateRemover来去重,你可以重写一个什么都不做的DuplicateRemover来不去重。
spider.setScheduler(new QueueScheduler().setDuplicateRemover(new DonothingDuplicateRemover())
)