可以使用零食从顽固的网页中获取JSON内容
我正在尝试使用scrapy创建一个脚本来从此网页。我已经在脚本中使用了标题,但是当我运行它时,我总是会得到 jsondecodeerror 。该站点有时会投掷验证…
Python砂纸我可以获取任何数据
from urllib import parse import scrapy from scrapy.linkextractors import LinkExtractor import codecs import json class WanikaniSpider(scrapy…
使用过滤条件将刮擦数据保存在不同词典中
我已经从同一蜘蛛刮了2个URL,如下所示: def start_requests(self): #calling Dawn Categories yield Request('https://www.dawn.com/business',call…
递归python功能的递归呼叫
我正在尝试使用Python从API中解析一些JSON。结果分为100组,其中 nextPagelink 在JSON链接到下一页的JSON中。 我有一个类,带有解析器,在击中 nextPa…
使用砂纸取得刮擦数据,而不是文件/数据库
我正在尝试将零食作为Python脚本运行,并希望处理刮擦的数据,而不是存储在文件/数据库中。该代码看起来 import scrapy import scrapy.crawler as cra…
为什么登录不进行废弃
我正在尝试创建登录程序来登录,但这不起作用。 import scrapy from scrapy.http import FormRequest from scrapy.utils.response import open_in_bro…
刮擦具有页面限制的网络网络
我正在尝试刮擦 https://www.olx.com.eg/en/properties/ 列表和其中显示了 200,000多个广告,我想刮擦所有200,000个列表,但分页并不超过49页。我已经…
我该如何运行废纸在废纸项目文件夹外
(1)我想使用process.crawl('spidername')运行scrapy,但WDIR不是Scrapy项目目录 就像这样: workspace ├─ scrapy_project │ ├─ project_name…
为什么要进行零工selector.css retuen空白列表
def parse(self, response): sel=scrapy.Selector(response) items_list=sel.css('#main > div.containerbox.boxindex > div.layui-row.layui-col-sp…
每当我更改解析功能零食时,都不起作用并引发错误?
from scrapy import Spider from selenium import webdriver from scrapy.selector import Selector from scrapy.http import Request from selenium.…
单击在硒中不起作用的按钮+砂纸
我想使用Scrapy + Selenium刮擦到新闻文章的链接。我使用的网站使用“更多负载”按钮,因此我显然希望Selenium单击此按钮以加载所有文章。 我已经寻找…