Scrapy

Scrapy

文章 673 浏览 210

python - scrapy 不跟踪链接

我正在尝试使用 Scrapy 解析网站。我需要解析的网址形成如下 http://example.com/productID/1234/。此链接可以在地址如下的页面上找到:http://exampl…

云之铃。 2025-01-01 04:45:06 1 0

如何解析文件中的第二个 xml 树

假设我有一个像 How do I parse 这样的 XML 文件 1500 asfgfdff ,以便解析器选择最近更新的 xml 树?…

忆离笙 2024-12-29 22:01:35 0 0

如何在 csv 文件中创建列并在 python scrapy 中在其下插入行

请帮助我使用 python scrapy 在 csv 文件中创建列并在其下插入行。我需要将抓取的数据写入 3 列。因此,首先要创建三列,然后在每一行中输入数据。…

财迷小姐 2024-12-29 10:05:57 0 0

scrapy 带有换行符和嵌套标签

免责声明:scrapy 新手。 我有一个带有非常不规则行的表,基本结构是: some text some other text yet some text 但偶尔(几百次)某些行是 some tex…

我要还你自由 2024-12-29 08:36:45 1 0

使用 FormRequest.from_response() 模拟用户登录 - FormRequest 未定义

不确定我是否有 Scrapy 或 Twisted 的问题或 ???通过 easy_install 运行 Python 2.7 32 位和最新的 scrapy/依赖项 尝试模拟 POST 请求登录并使其正常…

日暮斜阳 2024-12-28 14:34:30 0 0

Scrapy start_urls

脚本(如下)来自 本教程包含两个start_url。 from scrapy.spider import Spider from scrapy.selector import Selector from dirbot.items import We…

执手闯天涯 2024-12-28 01:38:53 1 0

如何用scrapy解析多个页面

我不断收到错误:无效的语法 1.add_xpath('tagLine', '//p[@class="tagline"]/text()') ,我似乎无法弄清楚为什么它会给我这个错误,因为据我所知,它…

故人的歌 2024-12-28 01:25:47 1 0

更改Python中的目录并通过scrapy Spider提取.html文件名

我编写了一个蜘蛛,它会爬行名为 fid 的文件夹,并提取所有子文件夹的名称作为链接。现在的问题是,每个子文件夹里面都有一个 html 页面,我想提取所…

怂人 2024-12-27 22:00:25 0 0

我们如何在scrapy中使用pipelines项

我是 scrapy 的新用户,用于抓取我的网站。我想将抓取的数据存储到 mysql 数据库中。 myspider.py: class MininovaSpider(CrawlSpider): name = 'mys…

坐在坟头思考人生 2024-12-27 16:31:15 0 0

Scrapy Torproject

在 Ubuntu 上, [guy@guy-laptop tmp]$ sudo /etc/init.d/tor status tor is running [guy@guy-laptop tmp]$ sudo /etc/init.d/polipo start Starting…

送你一个梦 2024-12-27 15:51:40 1 0

Scrapy 自定义导出器

我正在定义一个项目导出器,它将项目推送到消息队列。下面是代码。 from scrapy.contrib.exporter import JsonLinesItemExporter from scrapy.utils.s…

满栀 2024-12-27 13:28:50 0 0

抓取在一个引号内包含 href 的链接

我使用 Scrapy 抓取一些网站,但在 href 的链接中遇到问题,其中 href 的单引号 href=' ' 而不是双引号 href=" "。 当我允许使用 allow() 抓取所有链…

娇纵 2024-12-26 23:06:39 0 0

scrapy拒绝规则不被忽略

我有一些从数据库动态抓取的规则并将它们添加到我的蜘蛛中: self.name = exSettings['site'] self.allowed_domains = [exSettings['root']] self.sta…

清泪尽 2024-12-26 05:04:49 0 0

scrapy HtmlXPathSelector 来自字符串

我有一个关于字符串的 html 响应。 我正在尝试用它制作一个 HtmlXPathSelector,以便我可以在其上使用 xpath。 但它显示, TypeError: cannot create …

不弃不离 2024-12-25 21:45:18 1 0

Python的yield和return语句?和 Scrapy 产生请求

举例说明yield和return有什么区别? 当我们在生成器中产生任何值或请求时,实际上会发生什么? 我没有从任何其他函数或程序调用我的生成器。 我的循环…

鱼窥荷 2024-12-25 20:21:50 0 0
更多

推荐作者

紫罗兰の梦幻

文章 0 评论 0

-2134

文章 0 评论 0

liuxuanli

文章 0 评论 0

意中人

文章 0 评论 0

○愚か者の日

文章 0 评论 0

xxhui

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文