使用蜜罐 img 标签检测抓取工具/恶意机器人的建议
我们想在 html 正文中设置一个小蜜罐图像来检测抓取工具/恶意机器人。 以前有人设置过类似的东西吗? 我们认为最好的方法是: a) 通过以下方式注释 ht…
机械化提交表单字符编码问题
我正在尝试抓取 http://www.nscb.gov.ph/ggi/database。 asp,特别是您通过选择直辖市/省获得的所有表格。我将 python 与 lxml.html 和 mechanize 结…
如何从 XPath 查询中的先前属性值中提取嵌入的属性值?
我试图从 html 的以下部分中的 onclick 属性中“选择”链接
CPAN 模块出现问题
我尝试安装 WWW::Mechanize 模块, 'cpan WWW::Mechanize' 在“use WWW::Mechanize”行上没有收到任何错误,这意味着它找到了文件,但在尝试使用以下…
从 JavaScript 中提取数据(Python Scraper)
我目前正在使用 urllib2、pyquery 和 json 的融合来抓取网站,现在我发现我需要从 JavaScript 中提取一些数据。一种想法是使用 JavaScript 引擎(如 V…
蟒蛇 +机械化不与 Delicious 合作
我正在使用 Mechanize 和 Beautiful soup 来从 Delicious 上刮掉一些数据, from mechanize import Browser from BeautifulSoup import BeautifulSoup…
无法让 Scrapy 管道工作
我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到一些麻烦。我的 pipelines.py 中有以下代码: class FilePipeline(object): def __ini…
通过 https 导入 XML 数据
是否可以使用 php 从 https 链接获取/抓取数据, https 页面要求用户名和密码,并包含 XML 格式的数据。那么可以使用 PHP 获取这些数据吗?…
如何停止从我的 php 页面抓取链接
我有一个主页,其中包含一些链接和邮件 ID,我需要停止从该网页中抓取我的网址和邮件 ID... 我使用过 robots.txt 但大多数坏爬虫不会尊重这一点......…
Facebook 流 API 错误在浏览器中有效,但在服务器端无效
如果我在浏览器中输入此 URL,它会返回我有兴趣抓取的有效 XML 数据。 http://www.facebook.com/ajax/stream/profile.php?__a=1&profile_id=363438698…
从域获取所有 pdf 文件(例如 *.adomain.com)
我需要从某个域下载所有 pdf 文件。该域上大约有 6000 个 pdf 文件,其中大多数没有 html 链接(要么他们已经删除了链接,要么他们从未将链接放在第一…
- 共 1 页
- 1