第 2 页 - Scrapy - 文江博客

投稿关注

Scrapy

文章 673 浏览 211

零工爬虫：使用正确过滤器构建JSON文件

我正在使用CSS类选择器来帮助我使用蜘蛛。在scrapy shell上，如果我执行以下命令，我将获得所需的所有元素的输出： scrapy shell "https://www.fcf.ca…

望她远 2025-02-12 02:51:07 1 0

砂纸并发蜘蛛实例变量

我有许多播种机运行，最近有一个奇怪的虫子。我有一个基础课和许多子类： class MyBaseSpider(scrapy.Spider): new_items = [] def spider_closed(sel…

国粹 2025-02-12 00:10:50 0 0

使用砂纸创建XPATH

import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess class TestSpider(scrapy.Spider): name = 'test' start…

黑色毁心梦 2025-02-11 23:36:56 0 0

从网页下载CSV文件时丢失URL方案

我是刮擦的新手，并且一直在尝试直接从网站下载.csv文件。我设法通过编辑解决了我的最后一个问题，但是尝试下载文件时会遇到新的错误。以下错误是： …

白龙吟 2025-02-11 23:25:08 0 0

为什么我可以在剧作家中获得cookie值？

首先，我的英语不好我想使用剧作家来获得饼干，但我不能。我尝试了三种方法，但一无所获。使用 page.on page.on('request',get_cookie) page.on('…

静谧幽蓝 2025-02-11 19:37:33 1 0

给出XPath的无效表达错误

它会给我带来无效的路径表达式，我正在尝试刮去电子邮件 import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess…

悍妇囚夫 2025-02-11 18:44:45 0 0

用python scrape刮擦 - 我需要从同一标签中返回所有值

我尝试scrape https://cryptorank.io/fundraising-platforms ：我需要一个区块链信息：在SCRAPY SHELL中，我使用代码： fetch('https://cryptorank.…

两相知 2025-02-11 18:05:07 0 0

如何将请求发送到CloudFlare受保护的网站？

我正在尝试将请求发送到网站，但我正在获得 503状态代码。似乎该网站受到 cloudflare 的保护。是否可以使用 Python-RequeSts Library 将请求发送到 Cl…

不即不离 2025-02-11 17:48:16 2 0

使用美丽的汤和砂纸错误给我这个错误，请参阅分配前

我正在尝试刮擦数据，但它们给我错误 unboundLocalError：分配之前引用的本地变量'd3'如果您有任何解决方案，请帮助我这些页面链接 import scrapy fro…

我的鱼塘能养鲲 2025-02-11 15:43:52 1 0

当只有一个启动URL时，如何实现废弃的并发性？

我有一个情况，我需要每秒向Web服务器发送20个请求。我有一个产品列表页面URL，我从一开始就将蜘蛛传递给蜘蛛。START_URLS，并且我从列表页面上获得的…

一世旳自豪 2025-02-11 15:06:36 1 0

用砂纸刮擦数据

import requests import scrapy from scrapy.http import Request from bs4 import BeautifulSoup class TestSpider(scrapy.Spider): name = 'test' s…

逐鹿 2025-02-11 14:33:51 2 0

尝试使用砂纸刮擦YouTube，没有获取数据

Closed. This question needs details or clarity. It is not currently accepting answers. 想要改进此问题吗？添加详细信息并通过闭合 2年前。…

薆情海 2025-02-11 08:20:57 0 0

在其中获得带有特定文字的电子邮件

我正在创建一个脚本，该脚本列出了一个网站的所有业务，它需要刮擦（名称，地址，网站，电子邮件，电话号码）。而且我必须一部分，我有点可以刮擦电…

邮友 2025-02-11 06:42:03 0 0

Scrapy CoinMarketCap：如何从第一页上刮擦和获取信息，滚动其他内容并根据过滤器汇总信息？

我是零工和Python的新手，尽管他们有一个API，但我正在进行一个研究CoinMarketCap网站的项目。我有一些问题。问题1-如何保存第一页的信息以及我将要…

岁月静好 2025-02-11 03:21:17 0 0

在元素中选择所有文本节点，而没有文字在子元素中

在抓取网站时，我有一个这样的html： Text I don't want .... Text I want to grab. More text I want to grab 在这里，我只能选择要抓取的文字，即代…

尝蛊 2025-02-11 01:07:28 1 0

共 73 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客