需要使用 CURL 登录网站的帮助
我在使用 CURL 登录网站时遇到一些问题。 我认为我的问题与 cookie 文件有关。 我在登录时使用 cookiejar 来收集信息,然后 我使用 cookiefile 来检索…
PHP 函数获取内的所有链接在远程站点上使用抓取方法
有人有一个 PHP 函数可以抓取远程站点上特定 DIV 内的所有链接吗?所以用法可能是: $links =grab_links($url,$divname); 并返回一个我可以使用的数组…
如何使用 scraper 从 web 2.0 图表中提取数据
我最近遇到一个网页,其中包含一个图形对象,当鼠标滚动到该对象上时,该对象会显示该对象上的 (x, y) 值。有什么办法可以自动提取这些数据吗?…
如何使 pQuery 能够处理格式稍有缺陷的 HTML?
pQuery 是 jQuery JavaScript 框架到 Perl 的实用移植,可用于屏幕抓取。 pQuery 对格式错误的 HTML 非常敏感。考虑以下示例: use pQuery; my $html_…
网页抓取:按 javascript 按钮
我正在尝试抓取网页并接收我需要按下按钮的数据。这是按钮的源代码: "a class="press-me_btn" href="javascript:void( NewPage['DemoPage'].startDem…
使用 Javascript/html5 进行所见即所得的网页抓取/爬行设置?
我的目标是允许经验不足的人设置从网站上抓取一些信息所需的参数。 这个想法是用户输入一个 URL,然后将该 URL 加载到框架中。然后,用户应该能够选择…
使用 anemone 和 nokogiri 进行屏幕抓取需要帮助
我有一个 http://www.example.com/startpage 的起始页面,其中包含 1220 个列表以标准方式分页,例如每页 20 个结果。 我的代码可以解析结果的第一页…
如何使用cxfreeze打包scrapy项目?
我有一个 scrapy 项目,我想为使用 Windows 的客户将其全部打包在一起,而无需手动为它们安装依赖项。我遇到了 cxfreeze,但我不太确定它如何与 scrap…
如何在 ruby on Rails 中优雅地失败并在屏幕抓取失败时收到通知
我正在开发一个 Rails 3 项目,该项目严重依赖屏幕抓取来收集数据,主要使用 Nokogiri。我基本上聚合了所有相同的数据,但我从许多不同的来源获取它,…
使用 DOMDocument 和 XPath 访问子 div
我正在构建一个供个人使用和学习目的的基本屏幕抓取工具,因此请不要发表诸如“您需要征求许可”等评论。 我尝试访问的数据结构如下: asd asd asd as…
在 PHP 中使用 POST 变量抓取 ASP.Net 网站
在过去的几天里,我一直在尝试抓取一个网站,但到目前为止还没有成功。 情况如下: 我试图抓取的网站需要之前提交的表单中的数据。我已经识别了 Web …