PySpider如何去重?
请问
pyspider如何对某一个抓取值去重,不是url去重
比如我抓了很多文章,同样文章标题的不去抓取,过滤掉
请问怎么怎么设置,谢谢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
请问
pyspider如何对某一个抓取值去重,不是url去重
比如我抓了很多文章,同样文章标题的不去抓取,过滤掉
请问怎么怎么设置,谢谢
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
在脚本中覆盖get_taskid方法,相同文章标题的任务返回相同的taskid即可达到去重的效果
写入mysql后主键自动去重