Scrapy

Scrapy

文章 673 浏览 208

Python/Scrapy 问题:如何获得更清晰的结果?

我的项目任务是对网站上的特定名称进行数据挖掘。我对 python 的经验不高。当我抓取所有名字时,它们以这种格式出现: [u'Bob Joe'] [你蒂姆·汤姆] […

木槿暧夏七纪年 2024-11-18 13:28:52 3 0

Scrapy 按顺序爬取 URL

所以,我的问题比较简单。我有一个蜘蛛爬行多个站点,我需要它按照我在代码中编写的顺序返回数据。已发布在下面。 from scrapy.spider import BaseSpi…

清欢 2024-11-18 10:50:23 6 0

如何从 XPath 查询中的先前属性值中提取嵌入的属性值?

我试图从 html 的以下部分中的 onclick 属性中“选择”链接

2024-11-18 07:00:45 2 0

如何定义scrapy shell使用哪个spider?

我正在尝试使用 Scrapy shell 测试一些 XPath,但它似乎正在调用我不完整的蜘蛛模块来进行抓取,这不是我想要的。有没有办法定义 scrapy 使用哪个蜘蛛…

叹沉浮 2024-11-17 23:53:46 2 0

当 XPath 相同时提取数据

我是 jython 和 scrapy 的新手,但它们的功能给我留下了深刻的印象。我的问题是,当 XPath 相同时提取数据的最佳方法是什么? 例如: Bob Job hi 280.…

池木 2024-11-17 21:41:52 2 0

将 scrapy 项目部署到 scrapyd 时 HTTPCACHE 不起作用

当我尝试将 HTTPCACHE 与 scrapyd 一起使用时,出现以下错误: [scrapy] 警告:已禁用 Httpcache Middlware:无法找到 scrapy.cfg 文件来推断项目数据…

明媚如初 2024-11-17 19:59:50 2 0

从脚本运行 Scrapy - 挂起

我正在尝试从此处讨论的脚本运行 scrapy 。它建议使用 this 片段,但是当我这样做时,它会无限期地挂起。这是在 .10 版本中写回的;它仍然与当前的稳…

南街女流氓 2024-11-17 14:37:57 3 0

将数据直接抓取到 Cassandra 数据库

任何人都可以帮助我使用 Cassandra 数据库吗?其实我想 通过抓取到的数据直接传给Cassandra。目前,我正在使用 scrapy 来解析来自不同网站的数据。 提…

离不开的别离 2024-11-17 06:20:45 3 0

Scrapy 解析错误的 br 标签问题

我有一个 html 文件,其网址以 br 标签分隔,例如 Site1 Site2 Site3 请注意换行符标签是 而不是 。 Scrapy 能够解析并提取第一个 url,但无法提取此…

云仙小弟 2024-11-17 04:49:25 2 0

尝试在 Scrapy 中使用 ItemExporter

我正在尝试在我的代码中实现某种项目导出器。我的基本代码现在是抓取 si.com 的击球率,仅作为示例。结果显示在一长行中,我想修改存储在 .csv 文件中…

眼角的笑意。 2024-11-17 00:18:50 2 0

Scrapy 单元测试

我想在 Scrapy(屏幕抓取器/网络爬虫)中实现一些单元测试。由于项目是通过“scrapy scrapy”命令运行的,所以我可以通过鼻子之类的东西运行它。既然s…

圈圈圆圆圈圈 2024-11-17 00:02:57 4 0

提取文本与正则表达式匹配的 URL - 使用 XPath 1.0

我想使用 Scrapy 中的 XPath 提取这种类型的 URL(链接文本是具有任意位数的数字,href 是随机文本)。 我可以想到类似的东西 HtmlXPathSelector(resp…

浅语花开 2024-11-16 04:30:48 3 0

使用Scrapy解析站点地图

我希望能够使用 scrapy 来抓取站点地图上的链接。我对这个应用程序了解不多,所以我对您可以提供的任何链接/信息/文档感兴趣。 谢谢…

南城追梦 2024-11-15 06:34:16 3 0

Python Scrapy:allowed_domains从数据库添加新域

我需要向 allowed_domains 添加更多域,因此我没有收到“已过滤的异地请求”。 我的应用程序获取从数据库获取的网址,因此我无法手动添加它们。 我尝…

娇女薄笑 2024-11-14 19:45:13 2 0

使用 Twisted 和 Python 在后台执行复杂工作的 Websocket 服务器

我想编写一个处理 Websocket 客户端的服务器,同时通过 sqlalchemy 进行 mysql 选择并同时抓取多个网站(scrapy)。接收到的数据必须进行计算,保存到…

饭团 2024-11-13 23:24:24 3 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文