第 14 页 - PySpider - 文江博客

投稿关注

PySpider

文章 349 浏览 55

怎么获取onclick的链接？

想获取一个页面的链接，但链接是这种形式的，有的是点击后在一个新窗口打开，有的是直接在当前窗口打开，有的是post的。请问如何能获取到这种形式的…

你げ笑在眉眼 2022-09-04 14:38:05 15 0

一个循环中对一个url进行post请求时，为什么只有一次爬取结果？

爬取代码如下: # 一个循环中对一个url进行post请求时只有一次爬取结果？ for page in range(1, int(page_count) + 1): print 'page:', page self.cr…

停顿的约定 2022-09-04 13:49:26 30 0

pyspider使用redis分布式

在部署pyspider分布式时,尝试连接redis集群配置项为： "message_queue":"redis://127.0.0.1:6380/db"在启动时：报如下错误[E 170221 09:40:39 tornad…

贱人配狗天长地久 2022-09-04 13:45:07 17 0

pyspider 每次重试的时候，是不是用的第一次爬取的信息。比如代理，无论retry多少次都是一个代理。

用pyspider写爬虫，发现只要出现错误之后，所有的错误重试都不能够成功。猜测是因为每次重试都用的同一个代理。代码部分如下 def on_start(self): se…

哀由 2022-09-04 13:45:01 14 0

?pyspider 项目状态变成 Pause

看了 Task页面，很多个任务 Fetch ERROR 。不知道为什么变成Pause了，很奇怪，好像没有这个状态。…

心碎无痕… 2022-09-04 13:11:09 8 0

任务在执行状态中被卡住，后台一直提示“processing: retry xxxx”

Dashboard中任务状态处于running，还有很多链接待下载，但查看"Active Tasks"发现没有新任务在下载。查看后台一直在提示：这种情况已多次出现，不…

南冥有猫 2022-09-04 13:11:07 11 0

pyspider运行起来丢header参数

我从github上下载的最新版，配置里写了header参。在单步运行时参数正常，但是正式运行后所有任务里都没有header参数。请问有没有人遇到过或是知道怎么…

情话难免假 2022-09-04 13:03:46 14 0

pyspider同一个爬虫脚本，running和单步debug抓取同一网页的结果不同？

同一个爬虫脚本，running和单步debug抓取同一网页的结果不同，好像是response.content不全？ @足兆叉虫 …

情深如许 2022-09-04 13:02:26 9 0

根据文档使用self.send_message返回结果为什么有时不全，有时没有？

pyspider使用self.send_message返回结果在单步调试是对的，但是running起来结果就返回不对。跟了一些代码，发现base_handler的run_task()中的self._me…

徒留西风 2022-09-04 12:49:32 12 0

pyspider cookies问题，用requests设置cookies成功登录微博但在pyspider中失败

from pyspider.libs.base_handler import * class Handler(BaseHandler): user_url = "http://weibo.cn/" crawl_config = { 'itag': 'v1', 'headers'…

旧时浪漫 2022-09-04 12:38:50 55 0

单独启动fetcher 一直显示fetcher starting...

已经解决了，是redis的问题。一个进程已经启动pyspider -c config.json 且正常新开了一个进程启动：pyspider -c config.json fetcher结果一直显示fe…

蘑菇王子 2022-09-04 12:10:51 6 0

pyspider怎么删除项目

怎么删除项目…

独自←快乐 2022-09-04 12:08:42 14 0

pyspider分布式下可以控制某一工程的工作节点数量么？

请问，pyspider 在分布式下，可以控制某一个工程的工作节点数量么？比如我有三个工作节点，但是某一个工程我只想让它在一个工作节点上运行，这个该怎…

永不分离 2022-09-04 10:59:38 11 0

pyspider默认存入sqlite数据库时一定会先转化为Unicode吗？

在爬虫最后return数据的时候，我把中文字符串转化成了utf-8的编码格式，但是最后用shell的sqlite查看result.db的时候我发现所有中文字符都变成了u开头…

幼儿园老大 2022-09-04 10:41:25 8 0

pyspdier 自定义connect_timeout无效的解决办法

项目里定义了connect_timeout无效（默认20），因为本地解析问题，必须设置大一些才行。打开tornado_fetcher.py 里面搜索第一个connect_timeout：20改…

涙—继续流 2022-09-04 10:41:24 14 0

lixs

文章 0 评论 0

关注

敷衍　

文章 0 评论 0

关注

盗梦空间

文章 0 评论 0

关注

tian

文章 0 评论 0

关注

13375331123

文章 0 评论 0

关注

你对谁都笑

文章 0 评论 0

友情链接

文江博客

PySpider

怎么获取onclick的链接？

一个循环中对一个url进行post请求时，为什么只有一次爬取结果？

pyspider使用redis分布式

pyspider 每次重试的时候，是不是用的第一次爬取的信息。比如代理，无论retry多少次都是一个代理。

?pyspider 项目状态变成 Pause

任务在执行状态中被卡住，后台一直提示“processing: retry xxxx”

pyspider运行起来丢header参数

pyspider同一个爬虫脚本，running和单步debug抓取同一网页的结果不同？

根据文档使用self.send_message返回结果为什么有时不全，有时没有？

pyspider cookies问题，用requests设置cookies成功登录微博但在pyspider中失败

单独启动fetcher 一直显示fetcher starting...

pyspider怎么删除项目

pyspider分布式下可以控制某一工程的工作节点数量么？

pyspider默认存入sqlite数据库时一定会先转化为Unicode吗？

pyspdier 自定义connect_timeout无效的解决办法

热门标签

推荐作者

lixs

敷衍

盗梦空间

tian

13375331123

你对谁都笑

友情链接