使用 Jruby/Rails 实现 Google 的 hashbang/Ajax 抓取?
从这里开始工作:http://support.google.com /webmasters/bin/answer.py?hl=en&answer=174992 建议使用页面的 html 快照进行索引。我怎样才能用 watij…
我可以使用 HTMLUnit 访问 HTML5 存储吗
我有一个要求,需要确定是否有任何页面正在存储或读取 HTML5 数据存储。我正在使用 HTMLUnit 来抓取网页。我在 sourceforge 列表中检查了对 HTML5 存…
Htmlunit getByXPath 不返回图像标签
我正在尝试搜索特定页面上的所有图像标签。示例页面是 www.chapitre.com 我正在使用以下代码来搜索页面上的所有图像: HtmlPage page = HTMLParser.pa…
HtmlUnit 的 Click( ) 函数不起作用
我试图使用程序登录 yahoo Pipes 帐户(使用登录页面)。下面是我正在使用的代码。单击此页面的“登录”按钮http://pipes.yahoo.com/pipes/应该打开。…
Keys.TAB 不适用于 Selenium HTMLUnitDriver
我们在项目中使用 HTMLUnitDriver。我们正在使用最新的 Selenium 2.18.0 版本。 我正在尝试使用 Keys.TAB 模拟 TAB 按键 (org.openqa.selenium.Keys) …
使用 HtmlUnit 读取所有响应标头
我试图使用 http 单元读取我的应用程序的响应标头 - WebClient webClient = new WebClient(); WebClient.setThrowExceptionOnScriptError(false); Htm…
仅获取 id 和 href
我的输出由多个 id 和 href 以及其他数据组成。 如何使用 Htmlunit 和 Java 代码获取所有 id 和 href 值? 我需要强制获取所有 href 值,但 id 不是强…
“安装触发器”没有定义
在我的 html 页面中,我有类似这样的代码,其中仅当浏览器是 Firefox 时我才安装扩展: if (/Firefox[\/\s](\d+\.\d+)/.test(navigator.userAgent)) {…
HtmlUnit +生产中的硒
我目前正在使用 HtmlUnit 和 Selenium 在我的生产代码中驱动它 (WebDriver)。 我正在使用这些库以编程方式与各种网站进行扫描和交互,并且取得了一些…
HtmlUnit 不等待 AJAX 执行
我正在尝试在 .Net 中使用无头浏览器,并且我需要它来执行 JavaScript,因为我需要用它读取的信息是通过 AJAX 加载的。经过一些研究,我相信我最好的…
将 java 项目转换为 .Net 后如何访问 System.getProperties()
我正在尝试在 .Net 中使用 HTMLUnit 我遵循 Steven Sanderson 博客中的示例 http://blog.stevensanderson.com/2010/03/30/using-htmlunit-on-net-for-…
HTML 单元显示错误字符
我正在使用 HTMLUnit。我正在访问这些页面,但是特殊(马耳他语)字符显示错误。例如,ġuvni 显示为 ?uvni HtmlPage page = submit_button.click(); …
Java Steam 登录无法正常工作
我目前正在使用 Gargoyle 软件包和 Apache Commons 中的 WebClient。 我正在尝试通过基于 Java 的 WebClient 登录 Steam。不管出于什么原因,这个该死…
将 HTML 源代码从变量读取到 HTMLUNIT
我看到的所有 htmlunit 示例都使用 getPage 通过 URL 从网站检索 HTML。 WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage…