如何用包含class_id的ID刮擦所有元素的文本?
我有以下我接近工作的代码(我认为)。我可以使用包含 id 包含字符串 class_id 的 id 的选择器数组,其中包含每个锚元素的值。我要做的是让所有这些锚…
如何使用砂纸刮擦多个报价页面数据
我已经开发了一个代码来刮擦单页的数据,但是我不知道如何使用scrapy代码 import scrapy class QuoteSpider(scrapy.Spider): name = 'quote' start_ur…
签署链式XPATH选择
我正在使用以下XPATH选择器,在废除蜘蛛的解析方法中, for item in response.xpath( '//div[@id="mosaic-provider-jobcards"]//a//*[boolean(@id)]' …
Scarpy无法刮擦简单的网站,因为它提供了空数据
我正在努力关注网站但是我遇到了奇怪的错误,因为所有表数据都是空的,因为所有表数据都是空的。 以下是我简单的砂纸代码。 class FloorSheetSpider(s…
零工选择器仅获取第一个元素以进行循环
我不明白为什么在使用废品选择器时以下代码不起作用。 在砂壳中(很容易复制,但是蜘蛛中的问题仍然相同): from scrapy.selector import Selector b…
如果页面有不同的变化,如何在页面中找到文本?
我有一个元素,例如< span class =“ ads_price” id =“ tdo_8”> 7 650€</span> ,我需要按价格找到此元素,但是问题是我不知道价…
与PDFKIT签克,WinError 206
以下是我要运行的程序,但它返回WinError 206,是某种Windows错误还是其他?我发现WinError 206是关于Sobprocess的事情,有人可以帮我解决这个问题吗…
正确的标题和有效载荷,用于抓取使用AJAX的网站
我正在尝试使用scrapy formrequest模拟Ajax请求,以在此网站上获取下一页 headers = { 'path': 'https://www.the-academy.nl/Page?$$ajaxid=view:_id1…
获取“数据-...”的价值。用.css选择器属性
我正在尝试通过零工来获得数据归因的价值: response.css('.product-header-top div::attr("data-background-image")').get() 但是我没有获得数据背景…