第 7 页 - PySpider - 文江博客

投稿关注

PySpider

文章 349 浏览 58

pyspider可以用chrome的headless么

现在 chrome 有 headless 模式，pyspider 可以把 phantomjs 换到 chrome 的么？如果要自己改代码的话应该改哪部分呢？ …

锦上情书 2022-09-06 04:45:43 16 0

pyspider的on_finished()函数调用问题

本人的需求是：在操作一批量级比较大的库时，在库中添加了一个字段----是否被读取，每条数据有唯一id标识每一条记录，所以我每次操作完100条数据，就…

软的没边 2022-09-06 03:58:19 20 0

pyspider更新tag后执行的脚本依然为旧脚本

更新TAGS之后跑的脚本依然为老脚本，所传参数proxy依然为之前proxy…

横笛休吹塞上声 2022-09-06 03:58:17 10 0

pyspider抓头条json不会传递数据。

我用pyspider抓头条的json文件，每一页能获取下一页的链接和当前页的详情。但是存储速度很慢，因为每循环一次就执行一次插入mysql，请问怎么提高效率…

仲春光 2022-09-06 03:58:15 17 0

pyspider 调用PhantomJS 进行DOM 操作？

代码： #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-28 01:03:55 from pyspider.libs.base_handler import * import re …

油饼 2022-09-06 03:44:06 24 0

pyspider 如何只重爬FAILED的任务?

已讀 https://segmentfault.com/q/10...但我的result.db中并没有一列为status, 应如何处理? 因为数据量太多, 如可能的话, 不想重爬处理, 只想处理FAI…

国产ˉ祖宗 2022-09-06 03:14:19 20 0

pyspider 404 没有触发 catch_status_code_error 的函数

代码如下： #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-09-20 10:25:07 # Project: testerror from pyspider.libs.base_ha…

树深时见影 2022-09-06 03:14:15 17 0

pyspider 抛错list index out of range

track.fetch 95.33ms { "content": "\n\r\n\r\n\r\n \r\n \r\n \r\n \r\n 【6图】出租西城广安门外临街门面-西城广安门外商", "encoding": "UTF-8", …

妄司 2022-09-06 02:42:37 15 0

pyspider 如何添加所有项目的全局代理

现在我们pyspider的所有项目都需要代理,然后如果每个项目都通过添加crawl_config的方法的话很麻烦,想要添加一个所有项目的proxy.在libs/base_handler…

一向肩并 2022-09-06 02:42:33 20 0

pyspider 分布式部署下，fetcher 得到的数据是否优先给同节点运行的 processer 处理？

根据文档里的 data flow，fetcher 生产的 response 发给（feeds to） processor，那么在分布式部署下，response 数据是否要整个传回 scheduler 由它…

埋葬我深情 2022-09-06 01:34:30 23 0

pysipder设定了age和auto_recrawl之后的任务状态是否(会由于被重新调度而)一直为active

代码如下，我测试中是设定60s执行一次，设定了age和auto_recrawl，看上去任务是在执行，但我想询问下任务是不是会由于设定了定时任务，所以一直都是a…

乄_柒ぐ汐 2022-09-06 01:34:25 38 0

pyspider是否可以在任务途中改变代码?

我在代码中加了 crawl_config = { "itag" : "v1" "fetcher": { "proxy": 'xxxxxxxxxxxxx' , } } 因为用免费proxy的关系, 所以时间一久就会失效, 需转…

冷︶言冷语的世界 2022-09-06 00:55:20 20 0

self.crawl(url)里面的url能不能是空值？或者无意义值

项目需要，self.crawl(url)需要callback去另一个方法，但是要求不获取url的html，所以现在url用127.0.0.1代替，请问有什么方法，可以让callback成功，…

空名 2022-09-05 23:57:52 20 0

rate burst能否控制on_message接收的流量

其他project发送来的message，再通过on_message 传递给本项目的其他方法，如： def on_message(self, project, msg): ... ... self.crawl(url, callb…

优雅的叶子 2022-09-05 23:44:41 18 0

pyspider 如何跨实例部署

pyspider 的开发部署环境合一，但是为了区分开发测试环境，往往开发测试走一套pyspider实例，而上线走另外一套实例。测试过了以后，现在的部署只能把…

难理解 2022-09-05 23:41:25 19 0

共 24 页
上一页
5
6
7
8
9
下一页

友情链接

文江博客