无需显式定义要抓取的每个字段即可抓取数据
我想抓取一页数据(使用 Python Scrapy 库),而不必定义页面上的每个单独字段。相反,我想使用元素的 id 作为字段名称来动态生成字段。 起初我认为最…
Scrapy:跳过项目并继续执行
我正在做一个 RSS 蜘蛛。我想继续执行 如果当前节点不匹配,蜘蛛将忽略当前节点 item...到目前为止,我已经得到了这个: if info.startswith('Foo'): …
Scrapy:连接被拒绝
我在尝试测试 scrapy 安装时收到错误: $ scrapy shell http://www.google.es j2011-02-16 10:54:46+0100 [scrapy] INFO: Scrapy 0.12.0.2536 started…
尝试将Scrapy放入项目中以运行Crawl命令
我是 Python 和 Scrapy 的新手,我正在学习 Scrapy 教程。我已经能够通过使用 DOS 界面并键入以下内容来创建我的项目: scrapy startproject dmoz 本…
Scrapy - 如何管理cookie/会话
我对 cookie 如何与 Scrapy 一起工作以及如何管理这些 cookie 有点困惑。 这基本上是我想做的事情的简化版本: 网站的工作方式: 当您访问该网站时,…
使用 scrapy 抓取 yahoo 群组时出现问题
我是网络抓取新手,刚刚开始尝试 Scrapy,这是一个用 Python 编写的抓取框架。我的目标是清理旧的雅虎集团,因为他们不提供 API 或任何其他方式来检索…
递归使用Scrapy从网站上抓取网页
我最近开始使用 Scrapy。我试图从一个分为几页(大约 50 页)的大列表中收集一些信息。我可以轻松地从第一页(包括 start_urls 列表中的第一页)中提…
python-scrapy:如何在蜘蛛内部获取 URL(不是通过以下链接)?
我怎样才能在我的蜘蛛中获取一些 URL 以通过 HtmlXPathSelector 从页面中提取某些内容?但我想在代码中以字符串形式提供 URL,而不是要遵循的链接。 …
使用Django构建搜索引擎的建议
我是网络爬行的新手。我将构建一个搜索引擎,爬虫会保存 Rapidshare 链接,包括找到 Rapidshare 链接的 URL... ,我将构建一个类似于 filestube.com …
如何将不区分大小写的值与 XPath 匹配
我有一个 XPath,试图将具有名称属性的元标记与包含单词“关键字”的值(无论大小写)相匹配。基本上,我试图匹配: 与我正在使用 Scrapy 的 XPath 'd…
Scrapy 新手问题 - 无法使教程文件工作
我是 Python 和 Scrapy 的新手,所以我首先尝试复制该教程。我正在尝试按照教程抓取 www.dmoz.org 网站。 我如下所示编写 dmoz_spider.py from scrapy…
Scrapy Django 限制抓取的链接
我刚刚安装并运行了 scrapy,效果很好,但我有两个(菜鸟)问题。我首先要说的是,我对 scrapy 和蜘蛛网站完全陌生。 可以限制抓取的链接数量吗?我有…
无法让 Scrapy 管道工作
我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到一些麻烦。我的 pipelines.py 中有以下代码: class FilePipeline(object): def __ini…