通过 nokogiri 或 hpricot 进行屏幕抓取
我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…
禁用 Nokogiri 中的错误纠正
我正在处理许多格式错误的 HTML 页面。至少,我认为它们格式错误,因为当我在 Nokogiri 中解析它们然后执行 to_html 时,元素不再正确显示。然而,当…
Hpricot 搜索某一特定命名空间下的所有标签
例如,我有以下代码: Content Development 这个 XHTML 片段并不严格合法,因为之前没有声明名称空间,所以我无法使用具有更好名称空间支持的 Nokogir…
hpricot-UTF-8 中的无效字节序列
我已经做了一些搜索,但没有一个可以解决这个特殊的、意想不到的问题。 看看下面的代码: require 'open-uri' require 'hpricot' doc = Hpricot(open(…
使用 Ruby 和 Mechanize 登录网站
我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…
从网络上抓取 URL
Rehabilitation Science 对于上面的例子,我想同时获取部门名称“康复科学”及其主页网址“http://www.utoronto.ca/gdrs/”。 有人可以建议一些可以…
如何使用 hpricot 从超链接中提取 URL?
我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。 因此,如果我的输入字符串之一是 resource 我想得到: http://target.com/resour…
在方法调用中使用 ruby 块
下面的代码可以完美运行。 @doc = open(link) { |f| Hpricot(f) } 但我想使用以下代码,它似乎与 Hpricot 块配合得不好(例如 @doc 是 TempFile 对象…
如何使用 Hpricot 删除 div 内的特定内容
我有以下 html 结构 asdasdasdas asdasdasdas asdasdasdas asdasdasdas Content to be excluded 我需要的是,当我搜索 div id="rn_answertext" 时,我…
hpricot:从 URL 获取图像并解析元素
我正在尝试获取页面内图像的确切 URL,然后下载它。我还没有到达下载点,因为我正在尝试隔离图像的 URL。这是代码: #!/usr/bin/ruby -w require 'rub…
Hpricot - 未定义的方法“to_sym”对于 nil:NilClass
我最近做了一次捆绑更新,最终破坏了很多东西。我无法解决的问题之一是使用 hpricot 来格式化文本。 之前有 hpricot 用户遇到过这个 to_sym for nilCl…
使用 hpricot 构建 flashvar 数组
我之前曾使用 hpricot 从某些 HTML 标签内的网站获取内容,但是我正在尝试构建此页面上找到的所有 flashvar 的数组 http://view-source:http://megavi…
如何查找“”中的href元素值用红宝石标记
我的目标是找到谷歌搜索结果中的第一个结果并收集站点链接,所以我构建了这个脚本: require 'hpricot' require 'open-uri' require 'mechanize' quer…
Ruby:清理 HTML、使用 Hpricot 还是仅使用正则表达式?
我希望对 HTML 进行一些基本的清理。基本上想要创建一个允许的标签白名单并拒绝其他任何内容。 在这种情况下,Hpricot 值得吗?它是否有一个我忽略的…