零工爬虫:使用正确过滤器构建JSON文件
我正在使用CSS类选择器来帮助我使用蜘蛛。在scrapy shell上,如果我执行以下命令,我将获得所需的所有元素的输出: scrapy shell "https://www.fcf.ca…
砂纸并发蜘蛛实例变量
我有许多播种机运行,最近有一个奇怪的虫子。我有一个基础课和许多子类: class MyBaseSpider(scrapy.Spider): new_items = [] def spider_closed(sel…
使用砂纸创建XPATH
import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess class TestSpider(scrapy.Spider): name = 'test' start…
为什么我可以在剧作家中获得cookie值?
首先,我的英语不好 我想使用剧作家来获得饼干,但我不能。 我尝试了三种方法,但一无所获。 使用 page.on page.on('request',get_cookie) page.on('…
给出XPath的无效表达错误
它会给我带来无效的路径表达式,我正在尝试刮去电子邮件 import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess…
用python scrape刮擦 - 我需要从同一标签中返回所有值
我尝试scrape https://cryptorank.io/fundraising-platforms : 我需要一个区块链信息: 在SCRAPY SHELL中,我使用代码: fetch('https://cryptorank.…
如何将请求发送到CloudFlare受保护的网站?
我正在尝试将请求发送到网站,但我正在获得 503状态代码。似乎该网站受到 cloudflare 的保护。是否可以使用 Python-RequeSts Library 将请求发送到 Cl…
使用美丽的汤和砂纸错误给我这个错误,请参阅分配前
我正在尝试刮擦数据,但它们给我错误 unboundLocalError:分配之前引用的本地变量'd3'如果您有任何解决方案,请帮助我这些页面链接 import scrapy fro…
当只有一个启动URL时,如何实现废弃的并发性?
我有一个情况,我需要每秒向Web服务器发送20个请求。我有一个产品列表页面URL,我从一开始就将蜘蛛传递给蜘蛛。START_URLS,并且我从列表页面上获得的…
尝试使用砂纸刮擦YouTube,没有获取数据
Closed. This question needs details or clarity. It is not currently accepting answers. 想要改进此问题吗?添加详细信息并通过 闭合 2年前。…
Scrapy CoinMarketCap:如何从第一页上刮擦和获取信息,滚动其他内容并根据过滤器汇总信息?
我是零工和Python的新手,尽管他们有一个API,但我正在进行一个研究CoinMarketCap网站的项目。我有一些问题。 问题1-如何保存第一页的信息以及我将要…
在元素中选择所有文本节点,而没有文字在子元素中
在抓取网站时,我有一个这样的html: Text I don't want .... Text I want to grab. More text I want to grab 在这里,我只能选择要抓取的文字,即代…