PySpider

PySpider

文章 349 浏览 54

怎么获取onclick的链接?

想获取一个页面的链接,但链接是 &lta href="javascript:goTo(1234)" /a&gt这种形式的,有的是点击后在一个新窗口打开,有的是直接在当前窗口打开,有…

你げ笑在眉眼 2022-09-04 14:38:05 13 0

一个循环中对一个url进行post请求时,为什么只有一次爬取结果?

爬取代码如下: # 一个循环中对一个url进行post请求时 只有一次爬取结果? for page in range(1, int(page_count) + 1): print 'page:', page self.cr…

停顿的约定 2022-09-04 13:49:26 26 0

pyspider使用redis分布式

在部署pyspider分布式时,尝试连接redis集群配置项为: "message_queue":"redis://127.0.0.1:6380/db"在启动时:报如下错误[E 170221 09:40:39 tornad…

贱人配狗天长地久 2022-09-04 13:45:07 14 0

pyspider 每次重试的时候,是不是用的第一次爬取的信息。比如代理,无论retry多少次都是一个代理。

用pyspider写爬虫,发现只要出现错误之后,所有的错误重试都不能够成功。猜测是因为每次重试都用的同一个代理。代码部分如下 def on_start(self): se…

哀由 2022-09-04 13:45:01 10 0

?pyspider 项目状态变成 Pause

看了 Task页面,很多个任务 Fetch ERROR 。不知道为什么变成Pause了,很奇怪,好像没有这个状态。…

心碎无痕… 2022-09-04 13:11:09 6 0

任务在执行状态中被卡住,后台一直提示“processing: retry xxxx”

Dashboard中任务状态处于running,还有很多链接待下载,但查看"Active Tasks"发现没有新任务在下载。 查看后台一直在提示: 这种情况已多次出现,不…

南冥有猫 2022-09-04 13:11:07 8 0

pyspider运行起来丢header参数

我从github上下载的最新版,配置里写了header参。在单步运行时参数正常,但是正式运行后所有任务里都没有header参数。请问有没有人遇到过或是知道怎么…

情话难免假 2022-09-04 13:03:46 11 0

pyspider同一个爬虫脚本,running和单步debug抓取同一网页的结果不同?

同一个爬虫脚本,running和单步debug抓取同一网页的结果不同,好像是response.content不全? @足兆叉虫 …

情深如许 2022-09-04 13:02:26 6 0

根据文档使用self.send_message返回结果为什么有时不全,有时没有?

pyspider使用self.send_message返回结果在单步调试是对的,但是running起来结果就返回不对。跟了一些代码,发现base_handler的run_task()中的self._me…

徒留西风 2022-09-04 12:49:32 9 0

pyspider cookies问题,用requests设置cookies成功登录微博但在pyspider中失败

from pyspider.libs.base_handler import * class Handler(BaseHandler): user_url = "http://weibo.cn/" crawl_config = { 'itag': 'v1', 'headers'…

旧时浪漫 2022-09-04 12:38:50 54 0

单独启动fetcher 一直显示fetcher starting...

已经解决了,是redis的问题。 一个进程已经启动pyspider -c config.json 且正常新开了一个进程启动:pyspider -c config.json fetcher结果一直显示fe…

蘑菇王子 2022-09-04 12:10:51 3 0

pyspider怎么删除项目

怎么删除项目…

独自←快乐 2022-09-04 12:08:42 10 0

pyspider分布式下可以控制某一工程的工作节点数量么?

请问,pyspider 在分布式下,可以控制某一个工程的工作节点数量么?比如我有三个工作节点,但是某一个工程我只想让它在一个工作节点上运行,这个该怎…

永不分离 2022-09-04 10:59:38 8 0

pyspider默认存入sqlite数据库时一定会先转化为Unicode吗?

在爬虫最后return数据的时候,我把中文字符串转化成了utf-8的编码格式,但是最后用shell的sqlite查看result.db的时候我发现所有中文字符都变成了u开头…

幼儿园老大 2022-09-04 10:41:25 5 0

pyspdier 自定义connect_timeout无效的解决办法

项目里定义了connect_timeout无效(默认20),因为本地解析问题,必须设置大一些才行。打开tornado_fetcher.py 里面搜索第一个connect_timeout:20改…

涙—继续流 2022-09-04 10:41:24 9 0
更多

推荐作者

linfzu01

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文