pyspider webui 中的 helper.js 路由问题
如我截图所示,网页显示不全,css selector 无效 这个难道是我一个人的问题吗?windows ,linux 平台我都是这个情况,python3.5 helper.js 没有加载…
PySpider 安装后 有提示,请问怎么消除
mac 下使用虚拟环境 安装没有提示出错,但是运行后有如下提示,怎么消除? 主要有二个, 1个是登陆那里 flask相关的,另外一个是wsgidav,我是采用pip…
mongodb做为数据库不稳定,请问怎么怎么分析原因?
问题描述:pyspider运行一段时间(一天到三天不等)后调度器自动退出.重启pyspider能继续运行运行环境:linux mint 17.2 通过pip安装的pyspider.使…
pyspider 运行一段时间之后出现phantomjs对于大量请求没有response
我的pyspider正常运行好长一段时间了,对于phantomjs是定时重启的,可是在突然发现守护进程被杀掉了,整个pyspider重启以后仍然出现phantomjs没有反…
setTimeout 大于1秒时为什么失效?
def on_start(self): self.crawl('http://movie.douban.com/explore#more', fetch_type='js', js_script=""" function() { setTimeout("$('.more').c…
为什么有时候会出现大量并发的fetch?
正常情况下,fetch大致按rate指定的频率执行但有时候(项目还有task没完成,正在执行中),会接连出现多个select,然后是多个并发fetch请求,很容易…
pyspider乱码导致无法调试
最近一阵我的pyspider没法调试了,进入test项目左边栏显示如下: { \u0026#34process\u0026#34: { \u0026#34callback\u0026#34: \u0026#34on_start\u…
有没有办法在收到403之后,将整个project暂停一段时间?
在调整速率的过程中,有时会触发一些站的反爬机制,返回403错误,这时候继续执行可能会触发更长的封禁时间通过@catch_status_code_error应该能检测到4…
pyspider遇到不能识别的url时报错
大家好,我遇到一个很棘手的问题想请教大家是怎么解决的。 问题描述: pyspider遇到不规则的html页面时,只要其实包含不能正常解析的url时就会报错,…
demo中的豆瓣电影页面获取能导入js等待实现不
self.crawl('https://movie.douban.com/explore', fetch_type='js', js_viewport_width='375', js_viewport_height='627', allow_redirects='true', …
pyspider 如何捕捉网页下拉刷新的这种分页?
点击事件的我看了一些例子,名表了如何操作; 但下拉刷新的话,网页自动就刷新了,这个如何捕捉呢? 另外:我看一些例子中,直接就加上fetch_type='j…
pyspider按下run时,run按键是红色并且命令行有提示错误如下
在命令行中提示[E 160502 23:55:23 scheduler:170] unknown project: taobaoMM …