如何每次执行脚本时, 把先前的Results清空
想自动抓取一个每天都会更新的网站, 因为资料有立即性, 所以前一天抓取的旧资料可以完全清除,
目前已完成抓取方面的程序, 但不知道要如何才能清除先前在results内所留下的资料, 有办法可以达成吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
想自动抓取一个每天都会更新的网站, 因为资料有立即性, 所以前一天抓取的旧资料可以完全清除,
目前已完成抓取方面的程序, 但不知道要如何才能清除先前在results内所留下的资料, 有办法可以达成吗?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
那你就不要存嘛,直接消息队列给你自己的程序。
自问自答:
目前试出了一个可以删除results的方法
在on_start内去删除资料库的table, 用drop似乎会有问题, 所以改用_delete
resultdb = connect_database("sqlite+resultdb:///data/result.db")
resultdb._delete(resultdb._tablename(self.project_name), '1=1')
新建了一个pyspider的交流群 欢迎大家来一起讨论交流 完善pyspider
601113873