Hpricot:如何在没有其他 html 子元素的情况下提取内部文本
我正在开发一个 vim rspec 插件(https://github.com/skwp/vim-rspec) - 我正在从 rspec 解析一些 html。它看起来像这样: doc = %{ This is the hea…
如何使用 nokogiri/hpricot 和其他 gem 在网页中 grep 文件名和扩展名?
我正在开发一个应用程序,我必须 1)获取网站的所有链接 2)然后获取每个文件中的所有文件和文件扩展名的列表 网页/链接的。 我已经完成了第一部分:) …
来自 RSS 的 Hpricot 空链接元素
我目前正在 Ruby 中使用 Hpricot 解析 RSS 提要。 除 元素外,所有元素都是可检索的。 这就是我正在做的事情: 当我执行 ("/link").inspect 时,guid …
从没有不同 URL 的网站中删除结果
我正在尝试使用 SayNoTo0870 自动化搜索替代电话号码的过程。每次搜索备用号码或名称时,都会显示 '/companysearch.php' 页面。 显然这个页面没有任何…
无法提取 html 表格行
我尝试提取上表中列出的所有五行。 我正在使用 Ruby hpricot 库使用 xpath 表达式提取表行。 在我的示例中,我使用的 xpath 表达式是 /html/body/cen…
如何使用 Ruby 抓取具有多个页面的网站并创建一个 html 页面?
所以我想做的是抓取这个网站: http://boxerbiography.blogspot.com/ 并创建一个 HTML 页面,我可以打印该页面或将其发送到我的 Kindle。 我正在考虑…
使用 hpricot 解析 3 个表列
我得到了一个 HTML 文档,其中包含非常简单的表格,如下所示 CountryDate Belgium 20 April 2001 (original release) Belgium 25 April 2001 France 2…
通过 nokogiri 或 hpricot 进行屏幕抓取
我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…
禁用 Nokogiri 中的错误纠正
我正在处理许多格式错误的 HTML 页面。至少,我认为它们格式错误,因为当我在 Nokogiri 中解析它们然后执行 to_html 时,元素不再正确显示。然而,当…
Hpricot 搜索某一特定命名空间下的所有标签
例如,我有以下代码: Content Development 这个 XHTML 片段并不严格合法,因为之前没有声明名称空间,所以我无法使用具有更好名称空间支持的 Nokogir…
hpricot-UTF-8 中的无效字节序列
我已经做了一些搜索,但没有一个可以解决这个特殊的、意想不到的问题。 看看下面的代码: require 'open-uri' require 'hpricot' doc = Hpricot(open(…
使用 Ruby 和 Mechanize 登录网站
我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…
从网络上抓取 URL
Rehabilitation Science 对于上面的例子,我想同时获取部门名称“康复科学”及其主页网址“http://www.utoronto.ca/gdrs/”。 有人可以建议一些可以…
如何使用 hpricot 从超链接中提取 URL?
我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。 因此,如果我的输入字符串之一是 resource 我想得到: http://target.com/resour…