Scrapy

Scrapy

文章 673 浏览 208

从 Scrapy 项目中保存 Django 模型

我有一个 Scrapy 项目,我试图将输出项保存为 Django 模型定义中的对象(我没有使用 DjangoItem)。 我正在按照此处的指定导入 Django 设置。 def set…

柠檬心 2024-12-11 17:12:56 0 0

爬取多个不同深度的起始url

我正在尝试让 Scrapy 0.12 更改蜘蛛中 start_urls 变量中不同 url 的“最大深度”设置。 如果我正确理解文档,则没有办法,因为 DEPTH_LIMIT 设置对于…

花想c 2024-12-11 14:02:34 0 0

Scrapy :: JSON 导出问题

因此,我花了相当多的时间浏览 Scrapy 文档和教程,此后我一直致力于一个非常基本的爬虫。但是,我无法将输出放入 JSON 文件中。我觉得我错过了一些明…

输什么也不输骨气 2024-12-10 18:41:46 0 0

使用Scrapy抓取网页中的url

我正在使用 scrapy 从某些网站提取数据。问题是我的蜘蛛只能抓取初始 start_urls 的网页,它无法抓取网页中的 url。 我完全复制了同一个蜘蛛: from s…

泪眸﹌ 2024-12-10 12:06:48 0 0

在存储的数据上重放 Scrapy 蜘蛛

我已经开始使用 Scrapy 来抓取一些网站。如果我稍后向我的模型添加新字段或更改我的解析函数,我希望能够离线“重播”下载的原始数据以再次抓取它。看…

兰花执着 2024-12-10 11:13:59 0 0

使用正则表达式从段落中获取地址

好吧,这个有点痛。我正在用 Python 进行一些抓取,试图从几行标记不佳的 HTML 中获取地址。以下是格式示例: 256-555-5555 1234 Fake Ave S Gotham (…

顾冷 2024-12-08 01:50:23 1 0

如何使用 XPath 和 XPath 选择特定类型的 URL刮痧

我试图从包含如下链接的 HTML 中仅选择 http://lyricsindia.net/songs/show/* 类型的链接: LyricsIndia.net dhiimii dhiimii Songs Archive 我已经浏…

柠檬 2024-12-07 16:46:02 1 0

避免重定向

我正在尝试解析一个站点(用 ASP 编写),爬虫程序被重定向到主站点。但我想做的是解析给定的网址,而不是重定向的网址。有办法做到这一点吗?我尝试…

栩栩如生 2024-12-06 08:39:15 0 0

Scrapy“解析”函数没有被执行

我开始在 Ubuntu 11 上使用 scrapy,并遇到问题。具体来说,以下代码中的解析函数不会执行,尽管终端显示蜘蛛已执行并成功关闭 from scrapy.contrib.s…

遇见了你 2024-12-05 20:04:03 0 0

如何通过Google搜索抓取特定域的链接?

我有一个印度歌曲的歌词语料库,需要用发行年份来标记它们,以进行我正在进行的实验。 有一个网站(lyricsindia.net),其中有这些歌词的详尽数据库,…

懒猫 2024-12-05 18:15:10 1 0

scrapy默认使用HTTP 1.0

看起来 Scrapy 默认使用 HTTP 1.0。是否有设置使其使用 HTTP 1.1 发送请求? 谢谢。…

橘亓 2024-12-04 05:12:30 0 0

我怎样才能停止一个scrapy CrawlSpider并稍后从它停止的地方恢复?

我有一个 Scrapy CrawlSpider ,它有一个非常大的要抓取的 URL 列表。我希望能够停止它,保存当前状态并稍后恢复,而不必重新开始。有没有办法在Scrap…

深陷 2024-12-03 02:13:50 1 0

如何一次捕获多个div/表

我使用 Scrapy 的网址如下: http://www.marzetti.com/products/marzetti/detail.php?bc=35&cid=2&pid=1101&i=pl 我需要在同一个中捕获scrapy item,…

最美的太阳 2024-12-03 01:31:19 0 0

国际文本的 Scrapy 问题

我使用 scrapy 从网页上抓取文本。在蜘蛛中,我有这样的代码: title = hxs.select("//h1/text()").extract() #1 final_text = title[0].encode('utf-…

陌生 2024-12-01 10:50:39 0 0

使用 Scrapy 登录 Facebook 时出现问题

(我在 Scrapy google-group 上问过这个问题,但没有成功。) 我正在尝试使用 Scrapy 登录 Facebook。我在交互式 shell 中尝试了以下操作: 我设置了…

请叫√我孤独 2024-11-30 07:25:43 0 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文