尝试将文本与标题分开
我想从输出中删除这些:我只想要这些 Wave Coffee Collection '\n\n\t\t3rd Wave Coffee Collection\n\t\t\t\t\n\t' 这是我的代码: from scrapy.http…
Scrapy 中的 Errback 蜘蛛不会触发
下面的代码不会调用 errback: error_handler。可能是什么问题?然而,它确实到达了 parse_listings 并引发了 scrapy 捕获并记录的异常。 import scrap…
Web Crawler - 使用 Scrapy 迭代 Postgres 数据库结果
我正在尝试编写一个 scraper 从数据库结果中获取域。我能够从数据库获取数据,但我不知道如何将其提供给 Scrapy。我在这里查看并找到了很多建议,但没…
XPath 选择以下直到某些条件?
我在从以下节点选择产品时遇到问题。这是 html: Order ID 1 product 1 Order ID 2 product 1 product 2 Order ID 3 product 1 product 2 Order ID 4 …
Scrapy CrawlSpider:在提取链接之前获取数据
在CrawlSpider中,如何在提取每个链接之前抓取图像中“4天前”标记的字段? 下面提到的 CrawlSpider 工作正常。但在“parse_item”中,我想添加一个名…
如何使用Scrapy进行分页并访问每个页面上找到的所有链接
我有以下蜘蛛,我尝试结合分页和规则来访问每个页面上的链接。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders…
scrapycrawlspider与splash不执行process_request
我有一个带有splash的scrapy的crawlspider,以便爬行阿里巴巴网站以进行学习。但我的蜘蛛不会执行规则中的 process_request 函数来执行启动请求。结果…
如何抓取将鼠标悬停在元素上时出现的文本?
所以在电子商务网页上(https://www.jooraccess.com/r/products?token=feba69103f6c9789270a1412954cf250)当我将鼠标悬停在产品上时,会显示产品的颜…
为什么我的蜘蛛不执行解析函数,但使用另一个链接它可以工作?
我试图从此页面中提取一些数据,但解析函数未执行,我尝试放置另一个 URL(例如 google.com 的 URL)并执行,但对于我需要的页面却没有执行 import sc…
如何实现“ThreadPoolExecutor”在Python中?
事实上,我已经抓取了“Nykaa 网站”。但问题是获取完整数据需要大约 10 天。这是非常耗时的。 基本上,我想优化或自动化此代码,因此它需要最少的时…
如何使用 BeautifulSoup 从网页中抓取图像?
请原谅我的无知,但我无法理解这一点。我必须提出一个新问题,因为我意识到我真的不知道该怎么做。那么如何从这样的网页中抓取图像 https://www.joora…
使用 scrapy 抓取列出的 HTML 值
我似乎不知道如何构造这个 xpath 选择器。我什至尝试使用 nextsibling::text 但无济于事。我还浏览了 stackoverflow 问题来抓取列出的值,但无法正确…
在scrapy中获取与给定页面中的href元素关联的文本
目前,我的 scrapy 蜘蛛中的“产量”如下所示: yield { 'hreflink':mylink, 'Parentlink':response.url } 这将返回一个字典 { 'hreflink':"https://w…