从 Scrapy 项目中保存 Django 模型
我有一个 Scrapy 项目,我试图将输出项保存为 Django 模型定义中的对象(我没有使用 DjangoItem)。 我正在按照此处的指定导入 Django 设置。 def set…
爬取多个不同深度的起始url
我正在尝试让 Scrapy 0.12 更改蜘蛛中 start_urls 变量中不同 url 的“最大深度”设置。 如果我正确理解文档,则没有办法,因为 DEPTH_LIMIT 设置对于…
使用Scrapy抓取网页中的url
我正在使用 scrapy 从某些网站提取数据。问题是我的蜘蛛只能抓取初始 start_urls 的网页,它无法抓取网页中的 url。 我完全复制了同一个蜘蛛: from s…
使用正则表达式从段落中获取地址
好吧,这个有点痛。我正在用 Python 进行一些抓取,试图从几行标记不佳的 HTML 中获取地址。以下是格式示例: 256-555-5555 1234 Fake Ave S Gotham (…
如何使用 XPath 和 XPath 选择特定类型的 URL刮痧
我试图从包含如下链接的 HTML 中仅选择 http://lyricsindia.net/songs/show/* 类型的链接: LyricsIndia.net dhiimii dhiimii Songs Archive 我已经浏…
Scrapy“解析”函数没有被执行
我开始在 Ubuntu 11 上使用 scrapy,并遇到问题。具体来说,以下代码中的解析函数不会执行,尽管终端显示蜘蛛已执行并成功关闭 from scrapy.contrib.s…
如何通过Google搜索抓取特定域的链接?
我有一个印度歌曲的歌词语料库,需要用发行年份来标记它们,以进行我正在进行的实验。 有一个网站(lyricsindia.net),其中有这些歌词的详尽数据库,…
我怎样才能停止一个scrapy CrawlSpider并稍后从它停止的地方恢复?
我有一个 Scrapy CrawlSpider ,它有一个非常大的要抓取的 URL 列表。我希望能够停止它,保存当前状态并稍后恢复,而不必重新开始。有没有办法在Scrap…
如何一次捕获多个div/表
我使用 Scrapy 的网址如下: http://www.marzetti.com/products/marzetti/detail.php?bc=35&cid=2&pid=1101&i=pl 我需要在同一个中捕获scrapy item,…
国际文本的 Scrapy 问题
我使用 scrapy 从网页上抓取文本。在蜘蛛中,我有这样的代码: title = hxs.select("//h1/text()").extract() #1 final_text = title[0].encode('utf-…
使用 Scrapy 登录 Facebook 时出现问题
(我在 Scrapy google-group 上问过这个问题,但没有成功。) 我正在尝试使用 Scrapy 登录 Facebook。我在交互式 shell 中尝试了以下操作: 我设置了…