Python/Scrapy 问题:如何获得更清晰的结果?
我的项目任务是对网站上的特定名称进行数据挖掘。我对 python 的经验不高。当我抓取所有名字时,它们以这种格式出现: [u'Bob Joe'] [你蒂姆·汤姆] […
Scrapy 按顺序爬取 URL
所以,我的问题比较简单。我有一个蜘蛛爬行多个站点,我需要它按照我在代码中编写的顺序返回数据。已发布在下面。 from scrapy.spider import BaseSpi…
如何从 XPath 查询中的先前属性值中提取嵌入的属性值?
我试图从 html 的以下部分中的 onclick 属性中“选择”链接
如何定义scrapy shell使用哪个spider?
我正在尝试使用 Scrapy shell 测试一些 XPath,但它似乎正在调用我不完整的蜘蛛模块来进行抓取,这不是我想要的。有没有办法定义 scrapy 使用哪个蜘蛛…
当 XPath 相同时提取数据
我是 jython 和 scrapy 的新手,但它们的功能给我留下了深刻的印象。我的问题是,当 XPath 相同时提取数据的最佳方法是什么? 例如: Bob Job hi 280.…
将 scrapy 项目部署到 scrapyd 时 HTTPCACHE 不起作用
当我尝试将 HTTPCACHE 与 scrapyd 一起使用时,出现以下错误: [scrapy] 警告:已禁用 Httpcache Middlware:无法找到 scrapy.cfg 文件来推断项目数据…
将数据直接抓取到 Cassandra 数据库
任何人都可以帮助我使用 Cassandra 数据库吗?其实我想 通过抓取到的数据直接传给Cassandra。目前,我正在使用 scrapy 来解析来自不同网站的数据。 提…
Scrapy 解析错误的 br 标签问题
我有一个 html 文件,其网址以 br 标签分隔,例如 Site1 Site2 Site3 请注意换行符标签是 而不是 。 Scrapy 能够解析并提取第一个 url,但无法提取此…
尝试在 Scrapy 中使用 ItemExporter
我正在尝试在我的代码中实现某种项目导出器。我的基本代码现在是抓取 si.com 的击球率,仅作为示例。结果显示在一长行中,我想修改存储在 .csv 文件中…
提取文本与正则表达式匹配的 URL - 使用 XPath 1.0
我想使用 Scrapy 中的 XPath 提取这种类型的 URL(链接文本是具有任意位数的数字,href 是随机文本)。 我可以想到类似的东西 HtmlXPathSelector(resp…
Python Scrapy:allowed_domains从数据库添加新域
我需要向 allowed_domains 添加更多域,因此我没有收到“已过滤的异地请求”。 我的应用程序获取从数据库获取的网址,因此我无法手动添加它们。 我尝…
使用 Twisted 和 Python 在后台执行复杂工作的 Websocket 服务器
我想编写一个处理 Websocket 客户端的服务器,同时通过 sqlalchemy 进行 mysql 选择并同时抓取多个网站(scrapy)。接收到的数据必须进行计算,保存到…