Scrapy

Scrapy

文章 673 浏览 208

无需显式定义要抓取的每个字段即可抓取数据

我想抓取一页数据(使用 Python Scrapy 库),而不必定义页面上的每个单独字段。相反,我想使用元素的 id 作为字段名称来动态生成字段。 起初我认为最…

素年丶 2024-10-18 05:23:51 5 0

Scrapy:跳过项目并继续执行

我正在做一个 RSS 蜘蛛。我想继续执行 如果当前节点不匹配,蜘蛛将忽略当前节点 item...到目前为止,我已经得到了这个: if info.startswith('Foo'): …

攒一口袋星星 2024-10-17 22:06:11 6 0

Scrapy:连接被拒绝

我在尝试测试 scrapy 安装时收到错误: $ scrapy shell http://www.google.es j2011-02-16 10:54:46+0100 [scrapy] INFO: Scrapy 0.12.0.2536 started…

混浊又暗下来 2024-10-17 12:52:41 4 0

尝试将Scrapy放入项目中以运行Crawl命令

我是 Python 和 Scrapy 的新手,我正在学习 Scrapy 教程。我已经能够通过使用 DOS 界面并键入以下内容来创建我的项目: scrapy startproject dmoz 本…

被你宠の有点坏 2024-10-17 12:29:50 3 0

Scrapy - 如何管理cookie/会话

我对 cookie 如何与 Scrapy 一起工作以及如何管理这些 cookie 有点困惑。 这基本上是我想做的事情的简化版本: 网站的工作方式: 当您访问该网站时,…

铜锣湾横着走 2024-10-17 04:12:46 10 0

使用 scrapy 抓取 yahoo 群组时出现问题

我是网络抓取新手,刚刚开始尝试 Scrapy,这是一个用 Python 编写的抓取框架。我的目标是清理旧的雅虎集团,因为他们不提供 API 或任何其他方式来检索…

没企图 2024-10-15 17:28:18 9 0

递归使用Scrapy从网站上抓取网页

我最近开始使用 Scrapy。我试图从一个分为几页(大约 50 页)的大列表中收集一些信息。我可以轻松地从第一页(包括 start_urls 列表中的第一页)中提…

半世晨晓 2024-10-15 17:05:48 4 0

Scrapy 和代理

如何利用 python 网络抓取框架 Scrapy 的代理支持?…

梦冥 2024-10-12 11:46:29 5 0

python-scrapy:如何在蜘蛛内部获取 URL(不是通过以下链接)?

我怎样才能在我的蜘蛛中获取一些 URL 以通过 HtmlXPathSelector 从页面中提取某些内容?但我想在代码中以字符串形式提供 URL,而不是要遵循的链接。 …

感情旳空白 2024-10-11 03:20:41 5 0

使用Django构建搜索引擎的建议

我是网络爬行的新手。我将构建一个搜索引擎,爬虫会保存 Rapidshare 链接,包括找到 Rapidshare 链接的 URL... ,我将构建一个类似于 filestube.com …

青巷忧颜 2024-10-10 17:16:22 11 0

如何将不区分大小写的值与 XPath 匹配

我有一个 XPath,试图将具有名称属性的元标记与包含单词“关键字”的值(无论大小写)相匹配。基本上,我试图匹配: 与我正在使用 Scrapy 的 XPath 'd…

紫轩蝶泪 2024-10-10 01:03:46 4 0

Scrapy 新手问题 - 无法使教程文件工作

我是 Python 和 Scrapy 的新手,所以我首先尝试复制该教程。我正在尝试按照教程抓取 www.dmoz.org 网站。 我如下所示编写 dmoz_spider.py from scrapy…

巷雨优美回忆 2024-10-08 16:36:06 5 0

Scrapy Django 限制抓取的链接

我刚刚安装并运行了 scrapy,效果很好,但我有两个(菜鸟)问题。我首先要说的是,我对 scrapy 和蜘蛛网站完全陌生。 可以限制抓取的链接数量吗?我有…

久隐师 2024-10-04 02:17:21 4 0

访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型,以便我可以将抓取的数据直接保存到我的模型中? 我已经看到这个,但我真的不知道如何设置它?…

却一份温柔 2024-10-03 22:06:02 5 0

无法让 Scrapy 管道工作

我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到一些麻烦。我的 pipelines.py 中有以下代码: class FilePipeline(object): def __ini…

恍梦境° 2024-10-01 04:28:38 13 0
更多

推荐作者

游缘惊梦

文章 0 评论 0

小兔几

文章 0 评论 0

Glik

文章 0 评论 0

生生漫

文章 0 评论 0

Luxian

文章 0 评论 0

Champion-Ming

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文