如何从受 Shibboleth 保护的网站上抓取数据?
我正在尝试从我的大学网站中抓取数据,该网站使用 Shibboleth 作为一种身份验证/保护形式。然而,我很难确定通过它并到达我想要抓取的页面的最佳方式…
如何以编程方式填写 AJAX 表单并抓取结果?
基本上,我想使用 Facebook 广告管理工具来估计一组特定定位参数所定位的用户数量。我知道有一个已发布的 API 可用,但只有当您在他们的广告应用程序…
提取 picasaweb 相册名称
我只是想知道专辑名称。这是一个示例页面: http://picasaweb.google.com/sunnchoi 但是当我得到它并 grep对于标题模式,我得到 100 个结果。我知道我…
Scrapy 的 Ruby 替代品?
有哪些基于 Ruby 的工具可以帮助我实现与 Scrapy 对 Python 所做的类似的事情? http://doc.scrapy.org/intro/overview.html…
“退出状态 1”是什么意思?在 ScraperWiki 中的意思是,这是失败吗?
用户从爬虫运行中收到此消息。 Run succeeded: - ran 1 times, most recently for 2073 seconds (288 scraped pages, 2 records) 17:45, 5 May 2011 H…
使用通配符和 php 进行抓取
我很难想象和想象如何抓取此页面:http://www.morewords。 com/ends-with/aw 代表单词本身。给定一个 URL,我想获取内容,然后生成一个包含所有列出的…
ScraperWiki 是否会对其抓取的网站进行速率限制?
ScraperWiki 是否会以某种方式自动限制抓取速率,或者我应该在循环中添加类似 sleep(1 * random.random()) 的内容?…
禁用 webkit2png 的 -webkit-transform
当我尝试使用 webkit2png 截取元素的屏幕截图时,如果该元素使用 webkit-transform,则屏幕截图通常会是空白的。 这是一个研究项目,我正在尝试获取谷…
抓取 iPhone/移动网络应用程序输出的网站
所有, 我有一个现有的网站,使用 CMS。没有我们喜欢或看起来合适的模块 适用于 iPhone/Android/Windows Mobile Safari/Chrome/IE 网站显示可用于 CMS…
DOM 和XPath 抓取 - 当只需要一个时,返回两个 li 元素文本
到目前为止,这是我的代码。 $dom_currys = new DOMDocument; libxml_use_internal_errors(TRUE); $dom_currys->loadHTMLFile('http://www.currys.co.…
SQL UPDATE 没有更新数据库,我的 SQL 语句有问题吗?
这是我第一次尝试“真正的”C# 程序。它采用指定的目录,提取文件名(不带扩展名)并将其写入 SQL 数据库。然后,该数据被读回到数组中,并传递到下面…
抓取推文 - 使用网站还是 API 更好?
我正在使用 twitter gem 在 Ruby 中构建 Twitter 机器人。我试图使其能够自我维持,所以我希望它通过抓取其社交圈之外的用户的推文来生成自己的推文内…