使用 scrapy 抓取列出的 HTML 值
我似乎不知道如何构造这个 xpath 选择器。我什至尝试使用 nextsibling::text 但无济于事。我还浏览了 stackoverflow 问题来抓取列出的值,但无法正确…
在scrapy中获取与给定页面中的href元素关联的文本
目前,我的 scrapy 蜘蛛中的“产量”如下所示: yield { 'hreflink':mylink, 'Parentlink':response.url } 这将返回一个字典 { 'hreflink':"https://w…
Python,Splash 选择 XPATH 并单击按钮
我想使用 Python 和 Splash 通过 XPATH 选择“Ich stimme zu”按钮,然后单击。 我无法使用 CSS 类,因为它有一个动态名称。 网址:https://consent.g…
将资源类型限制为仅包含剧作家的 XHR
我只想使用 playwright_page_event_handlers 从 scrapy_playwright 返回 xhr。检查 jsonlines 文件后,我发现它没有成功限制为仅 xhrs。 我知道我可以…
scrapy 蜘蛛由于 TypeError 无法启动
我正在尝试使用我在其他项目上成功部署的代码为德国二手产品网站构建一个 scrapy 蜘蛛。然而这一次,我遇到了类型错误,但我似乎不明白为什么。 与这…
如何在scrapy中检查损坏的链接?
我有一系列链接,如何检查损坏的链接方法。一般来说,我需要实现类似这样的构造, def parse(self, response, **cb_kwargs): for link in links: *if …
以编程方式多次运行 Scrapy 蜘蛛,无需多个进程或同时运行
我有一个 Scrapy 蜘蛛,它可以抓取网页的内容,并且网页的项目将取决于传递给蜘蛛的参数。 scrapy runningpider myspider -a ID=1 我一直在尝试使用 C…
Python Scrapy 和 Selenium 打印了这么多我根本没想到的数据
我正在开展一个项目,该项目涉及一次抓取多个网站。由于我无法用纯粹的 scrapy 解析其中一些,所以我必须使用 selenium。 [我已经应用了 scrapy-selen…
作为脚本运行 scrapysplash
我正在尝试使用 splash 运行 scrapy 脚本,因为我想抓取基于 javascript 的网页,但没有结果。当我使用 python 命令执行此脚本时,出现以下错误:croc…
如何使用 CSS 选择器 (Scrapy) 从包含特定文本的类中获取 href
我正在使用以下网站: https://inmuebles.mercadolibre.com.mx/venta/ ,我正在尝试从“Inmueble”部分(红色)的“ver_todos”按钮获取链接。但是,…
我得到 json.decoder.JSONDecodeError: 期望用双引号括起来的属性名称:第 1 行第 2 列(字符 1)
import json import re import scrapy import ast class Scraper(scrapy.spiders.Spider): name = 'scraper' #mandatory=None def __init__(self, pag…