Scrapy

Scrapy

文章 673 浏览 210

使用 scrapy 抓取列出的 HTML 值

我似乎不知道如何构造这个 xpath 选择器。我什至尝试使用 nextsibling::text 但无济于事。我还浏览了 stackoverflow 问题来抓取列出的值,但无法正确…

权谋诡计 2025-01-10 13:22:54 1 0

在scrapy中获取与给定页面中的href元素关联的文本

目前,我的 scrapy 蜘蛛中的“产量”如下所示: yield { 'hreflink':mylink, 'Parentlink':response.url } 这将返回一个字典 { 'hreflink':"https://w…

两个我 2025-01-10 09:45:00 1 0

Scrapy爬取时如何回溯?

我想编写一个通用爬虫,一次爬行一个网站。但是,我希望它在看到我认为相关的页面时回溯。 例如,我想从公司网站中提取招聘广告,并且我有一个可以对…

梦境 2025-01-10 08:19:42 1 0

如何欺骗scrapy的地理定位?

目前,我正在使用网上商店的 scrapy 来开发解析器。我需要指定我的位置才能获取有关定位相关内容的信息。有没有办法设置 scrapy 来改变我的位置? 可…

揽月 2025-01-10 07:38:10 1 0

Python,Splash 选择 XPATH 并单击按钮

我想使用 Python 和 Splash 通过 XPATH 选择“Ich stimme zu”按钮,然后单击。 我无法使用 CSS 类,因为它有一个动态名称。 网址:https://consent.g…

秉烛思 2025-01-10 07:33:34 0 0

将资源类型限制为仅包含剧作家的 XHR

我只想使用 playwright_page_event_handlers 从 scrapy_playwright 返回 xhr。检查 jsonlines 文件后,我发现它没有成功限制为仅 xhrs。 我知道我可以…

辞别 2025-01-10 06:43:41 1 0

scrapy 蜘蛛由于 TypeError 无法启动

我正在尝试使用我在其他项目上成功部署的代码为德国二手产品网站构建一个 scrapy 蜘蛛。然而这一次,我遇到了类型错误,但我似乎不明白为什么。 与这…

¢蛋碎的人ぎ生 2025-01-10 04:11:41 0 0

公开共享我的用户代理是否危险?

我正在做一个 scrapy 项目,希望将代码上传到 Github。我的用户代理位于代码中,我想知道公开共享此信息是否安全。…

偏爱自由 2025-01-09 23:13:36 1 0

如何在scrapy中检查损坏的链接?

我有一系列链接,如何检查损坏的链接方法。一般来说,我需要实现类似这样的构造, def parse(self, response, **cb_kwargs): for link in links: *if …

一念一轮回 2025-01-09 18:21:21 1 0

以编程方式多次运行 Scrapy 蜘蛛,无需多个进程或同时运行

我有一个 Scrapy 蜘蛛,它可以抓取网页的内容,并且网页的项目将取决于传递给蜘蛛的参数。 scrapy runningpider myspider -a ID=1 我一直在尝试使用 C…

美人迟暮 2025-01-09 16:09:34 1 0

下载图像并将其存储到单独的文件中

我想从网络下载图像并根据图像的标题名称将它们存储到单独的文件中。我开发了一个抓取器来抓取这些图像的链接,但是当我包含 files_pipeline 时,我无…

孤千羽 2025-01-09 15:02:52 1 0

Python Scrapy 和 Selenium 打印了这么多我根本没想到的数据

我正在开展一个项目,该项目涉及一次抓取多个网站。由于我无法用纯粹的 scrapy 解析其中一些,所以我必须使用 selenium。 [我已经应用了 scrapy-selen…

孤千羽 2025-01-09 14:07:03 1 0

作为脚本运行 scrapysplash

我正在尝试使用 splash 运行 scrapy 脚本,因为我想抓取基于 javascript 的网页,但没有结果。当我使用 python 命令执行此脚本时,出现以下错误:croc…

凑诗 2025-01-09 11:47:20 1 0

如何使用 CSS 选择器 (Scrapy) 从包含特定文本的类中获取 href

我正在使用以下网站: https://inmuebles.mercadolibre.com.mx/venta/ ,我正在尝试从“Inmueble”部分(红色)的“ver_todos”按钮获取链接。但是,…

萌能量女王 2025-01-09 10:40:18 1 0

我得到 json.decoder.JSONDecodeError: 期望用双引号括起来的属性名称:第 1 行第 2 列(字符 1)

import json import re import scrapy import ast class Scraper(scrapy.spiders.Spider): name = 'scraper' #mandatory=None def __init__(self, pag…

酒废 2025-01-09 09:42:36 1 0
更多

推荐作者

紫罗兰の梦幻

文章 0 评论 0

-2134

文章 0 评论 0

liuxuanli

文章 0 评论 0

意中人

文章 0 评论 0

○愚か者の日

文章 0 评论 0

xxhui

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文