Scrapy

Scrapy

文章 673 浏览 211

零工爬虫:使用正确过滤器构建JSON文件

我正在使用CSS类选择器来帮助我使用蜘蛛。在scrapy shell上,如果我执行以下命令,我将获得所需的所有元素的输出: scrapy shell "https://www.fcf.ca…

望她远 2025-02-12 02:51:07 1 0

砂纸并发蜘蛛实例变量

我有许多播种机运行,最近有一个奇怪的虫子。我有一个基础课和许多子类: class MyBaseSpider(scrapy.Spider): new_items = [] def spider_closed(sel…

国粹 2025-02-12 00:10:50 0 0

使用砂纸创建XPATH

import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess class TestSpider(scrapy.Spider): name = 'test' start…

黑色毁心梦 2025-02-11 23:36:56 0 0

从网页下载CSV文件时丢失URL方案

我是刮擦的新手,并且一直在尝试直接从网站下载.csv文件。我设法通过编辑解决了我的最后一个问题,但是尝试下载文件时会遇到新的错误。以下错误是: …

白龙吟 2025-02-11 23:25:08 0 0

为什么我可以在剧作家中获得cookie值?

首先,我的英语不好 我想使用剧作家来获得饼干,但我不能。 我尝试了三种方法,但一无所获。 使用 page.on page.on('request',get_cookie) page.on('…

静谧幽蓝 2025-02-11 19:37:33 1 0

给出XPath的无效表达错误

它会给我带来无效的路径表达式,我正在尝试刮去电子邮件 import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess…

悍妇囚夫 2025-02-11 18:44:45 0 0

用python scrape刮擦 - 我需要从同一标签中返回所有值

我尝试scrape https://cryptorank.io/fundraising-platforms : 我需要一个区块链信息: 在SCRAPY SHELL中,我使用代码: fetch('https://cryptorank.…

两相知 2025-02-11 18:05:07 0 0

如何将请求发送到CloudFlare受保护的网站?

我正在尝试将请求发送到网站,但我正在获得 503状态代码。似乎该网站受到 cloudflare 的保护。是否可以使用 Python-RequeSts Library 将请求发送到 Cl…

不即不离 2025-02-11 17:48:16 2 0

使用美丽的汤和砂纸错误给我这个错误,请参阅分配前

我正在尝试刮擦数据,但它们给我错误 unboundLocalError:分配之前引用的本地变量'd3'如果您有任何解决方案,请帮助我这些页面链接 import scrapy fro…

我的鱼塘能养鲲 2025-02-11 15:43:52 1 0

当只有一个启动URL时,如何实现废弃的并发性?

我有一个情况,我需要每秒向Web服务器发送20个请求。我有一个产品列表页面URL,我从一开始就将蜘蛛传递给蜘蛛。START_URLS,并且我从列表页面上获得的…

一世旳自豪 2025-02-11 15:06:36 1 0

用砂纸刮擦数据

import requests import scrapy from scrapy.http import Request from bs4 import BeautifulSoup class TestSpider(scrapy.Spider): name = 'test' s…

逐鹿 2025-02-11 14:33:51 2 0

尝试使用砂纸刮擦YouTube,没有获取数据

Closed. This question needs details or clarity. It is not currently accepting answers. 想要改进此问题吗?添加详细信息并通过 闭合 2年前。…

薆情海 2025-02-11 08:20:57 0 0

在其中获得带有特定文字的电子邮件

我正在创建一个脚本,该脚本列出了一个网站的所有业务, 它需要刮擦(名称,地址,网站,电子邮件,电话号码)。 而且我必须一部分,我有点可以刮擦电…

邮友 2025-02-11 06:42:03 0 0

Scrapy CoinMarketCap:如何从第一页上刮擦和获取信息,滚动其他内容并根据过滤器汇总信息?

我是零工和Python的新手,尽管他们有一个API,但我正在进行一个研究CoinMarketCap网站的项目。我有一些问题。 问题1-如何保存第一页的信息以及我将要…

岁月静好 2025-02-11 03:21:17 0 0

在元素中选择所有文本节点,而没有文字在子元素中

在抓取网站时,我有一个这样的html: Text I don't want .... Text I want to grab. More text I want to grab 在这里,我只能选择要抓取的文字,即代…

尝蛊 2025-02-11 01:07:28 1 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文