怎么获取onclick的链接?
想获取一个页面的链接,但链接是 <a href="javascript:goTo(1234)" /a>这种形式的,有的是点击后在一个新窗口打开,有的是直接在当前窗口打开,有…
一个循环中对一个url进行post请求时,为什么只有一次爬取结果?
爬取代码如下: # 一个循环中对一个url进行post请求时 只有一次爬取结果? for page in range(1, int(page_count) + 1): print 'page:', page self.cr…
pyspider使用redis分布式
在部署pyspider分布式时,尝试连接redis集群配置项为: "message_queue":"redis://127.0.0.1:6380/db"在启动时:报如下错误[E 170221 09:40:39 tornad…
pyspider 每次重试的时候,是不是用的第一次爬取的信息。比如代理,无论retry多少次都是一个代理。
用pyspider写爬虫,发现只要出现错误之后,所有的错误重试都不能够成功。猜测是因为每次重试都用的同一个代理。代码部分如下 def on_start(self): se…
任务在执行状态中被卡住,后台一直提示“processing: retry xxxx”
Dashboard中任务状态处于running,还有很多链接待下载,但查看"Active Tasks"发现没有新任务在下载。 查看后台一直在提示: 这种情况已多次出现,不…
pyspider运行起来丢header参数
我从github上下载的最新版,配置里写了header参。在单步运行时参数正常,但是正式运行后所有任务里都没有header参数。请问有没有人遇到过或是知道怎么…
pyspider同一个爬虫脚本,running和单步debug抓取同一网页的结果不同?
同一个爬虫脚本,running和单步debug抓取同一网页的结果不同,好像是response.content不全? @足兆叉虫 …
根据文档使用self.send_message返回结果为什么有时不全,有时没有?
pyspider使用self.send_message返回结果在单步调试是对的,但是running起来结果就返回不对。跟了一些代码,发现base_handler的run_task()中的self._me…
pyspider cookies问题,用requests设置cookies成功登录微博但在pyspider中失败
from pyspider.libs.base_handler import * class Handler(BaseHandler): user_url = "http://weibo.cn/" crawl_config = { 'itag': 'v1', 'headers'…
单独启动fetcher 一直显示fetcher starting...
已经解决了,是redis的问题。 一个进程已经启动pyspider -c config.json 且正常新开了一个进程启动:pyspider -c config.json fetcher结果一直显示fe…
pyspider分布式下可以控制某一工程的工作节点数量么?
请问,pyspider 在分布式下,可以控制某一个工程的工作节点数量么?比如我有三个工作节点,但是某一个工程我只想让它在一个工作节点上运行,这个该怎…
pyspider默认存入sqlite数据库时一定会先转化为Unicode吗?
在爬虫最后return数据的时候,我把中文字符串转化成了utf-8的编码格式,但是最后用shell的sqlite查看result.db的时候我发现所有中文字符都变成了u开头…
pyspdier 自定义connect_timeout无效的解决办法
项目里定义了connect_timeout无效(默认20),因为本地解析问题,必须设置大一些才行。打开tornado_fetcher.py 里面搜索第一个connect_timeout:20改…