PySpider

PySpider

文章 349 浏览 55

升级后pyspider不启动,一直停留在web server running on port 25555

升级到最新版(0.3.8)后,pyspider 无法启动,一直停留在web server running on port 25555 正常可以启动,但是,用pyspider -c config.json 带参数…

寻找一个思念的角度 2022-09-04 08:20:28 10 0

【bug】当出现特殊换字符时 lxml报错: input conversion failed due to

错误提示:encoding error : input conversion failed due to采集一个页面,页面中有无法转码的特殊字符,一般情况下用 .decode('gbk','ignore') 或…

天煞孤星 2022-09-04 08:14:22 15 0

pyspider降低爬取频率的问题,如何限制on_start方法中for循环的执行频率?

看文档中设置@every是用来限制多久执行一次on_start方法,我现在是暴力遍历url去爬,我需要限制for循环的执行频率 def on_start(self): for id in ra…

暗恋未遂 2022-09-04 08:14:21 8 0

pyspider的callback函数可以传参数吗?

callback=self.index_page(id) 像这样的,因为index_page中需要这个参数做下一步处理 …

哽咽笑 2022-09-04 08:09:34 10 0

pyspider 中 failed 的任务怎么retry

一开始的任务没有设置retry_delay,过了一夜看到大约有几十个task failed,如果我想重试这些failed的task,该怎么操作?…

谷夏 2022-09-04 07:54:43 10 0

pyspider 一台机器上起多个process 是否可以

现在我的pyspider 逻辑处理较为复杂,现在抓取已经不是瓶颈,而处理成为了瓶颈,怎么修改,使的我系统运行更快…

执笏见 2022-09-04 07:54:40 18 0

pyspider爬取分页数据,setInterval模拟下一页点击事件无效

爬的这个网页分页切换url不变,我就模拟了下一页按钮的点击事件,我在控制台里试了这句跳到下一页的代码$('.pager_next').click()是可以正常加载下一…

嗼ふ静 2022-09-04 07:54:28 9 0

pyspider怎样爬取分页数据呢?

pyspider系列文章的第三篇讲解了如何模拟【加载更多】按钮的点击事件来获得当前页面上的更多数据。 那我模拟【下一页】按钮的点击事件,会刷新当前页…

作妖 2022-09-04 07:37:42 9 0

PySpider安装完成后运行提示:result_worker starting... 之后再无更多内容

PySpider安装完成后运行提示:result_worker starting...之后再无更多内容 64位win10,64位Python …

唯憾梦倾城 2022-09-04 07:36:29 9 0

请问如何解决HTTP 599: Recv failure: Connection reset by peer错误

请问如何解决HTTP 599: Recv failure: Connection reset by peer错误。页面访问正常。 track.fetch 13824.35ms { "content": "", "encoding": null, …

情绪少女 2022-09-04 07:31:30 12 0

pyspider scheduler 停止调度,重启时间长.

当前的pyspider为pyspider (0.3.9) python 2.7.5 大概有200个项目,其中部分stop,运行状态大概有100多个。 projectdb和resultdb 使用的是 mongodb c…

╄→承喏 2022-09-04 07:19:07 16 0

并发提升不上去,如何排查

用的 MongoDB + RabbitMQ 比之前用的 MySQL + Redis 的方案慢很多,想了解下有何排查思路? 截图是 webUI 上展示的 avg time .. 两个数值分别代表什…

机场等船 2022-09-04 06:55:32 10 0

pyspider是否可以按一定的间隔同时发起多个请求?

请问pyspider是否可以按一定的间隔同时发起多个请求?比如先同时请求url1和url2,然后等待10秒,再同时请求url3和url4这样。现在的设置貌似是只能按一…

韵柒 2022-09-04 05:52:45 10 0

schedule内容不更新的问题。

用的github上最新的0.3.9版本,发现更改了project的代码后,schedule里面的内容居然没有更新,导致本来希望半小时抓取一次,结果爬虫是10秒钟爬取一…

子栖 2022-09-04 05:52:41 12 0

请问如果调试页面执行情况以解决phantomjs不执行js问题?

我之前问过一个问题:请问如何解决windows环境下phantomjs不支持flash的问题?我现在换到ubuntu环境下,phantomjs依然不执行js代码,抓不到数据。我…

メ斷腸人バ 2022-09-04 05:30:31 21 0
更多

推荐作者

杨绘峰

文章 0 评论 0

听闻余生

文章 0 评论 0

谜兔

文章 0 评论 0

xiaotwins

文章 0 评论 0

你说

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文