网页抓取:按 javascript 按钮
我正在尝试抓取网页并接收我需要按下按钮的数据。这是按钮的源代码: "a class="press-me_btn" href="javascript:void( NewPage['DemoPage'].startDem…
使用 Javascript/html5 进行所见即所得的网页抓取/爬行设置?
我的目标是允许经验不足的人设置从网站上抓取一些信息所需的参数。 这个想法是用户输入一个 URL,然后将该 URL 加载到框架中。然后,用户应该能够选择…
使用 anemone 和 nokogiri 进行屏幕抓取需要帮助
我有一个 http://www.example.com/startpage 的起始页面,其中包含 1220 个列表以标准方式分页,例如每页 20 个结果。 我的代码可以解析结果的第一页…
如何使用cxfreeze打包scrapy项目?
我有一个 scrapy 项目,我想为使用 Windows 的客户将其全部打包在一起,而无需手动为它们安装依赖项。我遇到了 cxfreeze,但我不太确定它如何与 scrap…
如何在 ruby on Rails 中优雅地失败并在屏幕抓取失败时收到通知
我正在开发一个 Rails 3 项目,该项目严重依赖屏幕抓取来收集数据,主要使用 Nokogiri。我基本上聚合了所有相同的数据,但我从许多不同的来源获取它,…
使用 DOMDocument 和 XPath 访问子 div
我正在构建一个供个人使用和学习目的的基本屏幕抓取工具,因此请不要发表诸如“您需要征求许可”等评论。 我尝试访问的数据结构如下: <tr> <td…
在 PHP 中使用 POST 变量抓取 ASP.Net 网站
在过去的几天里,我一直在尝试抓取一个网站,但到目前为止还没有成功。 情况如下: 我试图抓取的网站需要之前提交的表单中的数据。我已经识别了 Web …
一些 If 语句、一些 html 调查和网络浏览器
我有一个代码可以在此链接中单独检索所有“地名”和所有“地址”: http://www.yellowpages.ca/search/si-geo/1/sh/Ottawa,+ON 我需要修改我的代码,…
需要从多个站点获取div的内容
我想获取 newegg 的产品价格。这是此网站的一个示例网站 http://www.newegg.com/Product/Product.aspx?Item=**N82E16820167027** ,我想获取包含价格…
使用 grep 从本地文件中的 HTML 标记内获取文本
可能的重复: RegEx 匹配开放标记(XHTML 自包含标记除外) 输入文件摘录 <TD class="clsTDLabelWeb" width="28%">Municipality:&nbsp</TD&…