如何每次执行脚本时, 把先前的Results清空

发布于 2022-09-04 08:29:17 字数 117 浏览 28 评论 0

想自动抓取一个每天都会更新的网站, 因为资料有立即性, 所以前一天抓取的旧资料可以完全清除,

目前已完成抓取方面的程序, 但不知道要如何才能清除先前在results内所留下的资料, 有办法可以达成吗?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

浮世清欢 2022-09-11 08:29:17

那你就不要存嘛,直接消息队列给你自己的程序。

难理解 2022-09-11 08:29:17

自问自答:

目前试出了一个可以删除results的方法
在on_start内去删除资料库的table, 用drop似乎会有问题, 所以改用_delete
resultdb = connect_database("sqlite+resultdb:///data/result.db")
resultdb._delete(resultdb._tablename(self.project_name), '1=1')

说谎友 2022-09-11 08:29:17

新建了一个pyspider的交流群 欢迎大家来一起讨论交流 完善pyspider
601113873

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文