hpricot

hpricot

文章 1 浏览 59

通过 nokogiri 或 hpricot 进行屏幕抓取

我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…

醉城メ夜风 2024-12-10 20:43:58 1 0

禁用 Nokogiri 中的错误纠正

我正在处理许多格式错误的 HTML 页面。至少,我认为它们格式错误,因为当我在 Nokogiri 中解析它们然后执行 to_html 时,元素不再正确显示。然而,当…

失眠症患者 2024-12-07 16:41:10 1 0

Hpricot 搜索某一特定命名空间下的所有标签

例如,我有以下代码: Content Development 这个 XHTML 片段并不严格合法,因为之前没有声明名称空间,所以我无法使用具有更好名称空间支持的 Nokogir…

非要怀念 2024-12-02 02:49:24 3 0

hpricot-UTF-8 中的无效字节序列

我已经做了一些搜索,但没有一个可以解决这个特殊的、意想不到的问题。 看看下面的代码: require 'open-uri' require 'hpricot' doc = Hpricot(open(…

在梵高的星空下 2024-11-27 05:31:07 0 0

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…

邮友 2024-11-19 13:14:22 5 0

从网络上抓取 URL

Rehabilitation Science 对于上面的例子,我想同时获取部门名称“康复科学”及其主页网址“http://www.utoronto.ca/gdrs/”。 有人可以建议一些可以…

耳根太软 2024-11-16 22:56:10 4 0

如何使用 hpricot 从超链接中提取 URL?

我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。 因此,如果我的输入字符串之一是 resource 我想得到: http://target.com/resour…

当梦初醒 2024-11-16 10:04:03 4 0

网页源代码中的奇怪符号

我有问题 我尝试使用 Hpricot 解析 UTF-8 格式并包含俄语文本的网页 问题是我收到带有一些奇怪符号的俄语文本,并且当我尝试将 (iconv) 从 UTF-8 转换…

明月夜 2024-11-16 07:10:45 3 0

在方法调用中使用 ruby​​ 块

下面的代码可以完美运行。 @doc = open(link) { |f| Hpricot(f) } 但我想使用以下代码,它似乎与 Hpricot 块配合得不好(例如 @doc 是 TempFile 对象…

血之狂魔 2024-11-15 04:33:28 5 0

如何使用 Hpricot 删除 div 内的特定内容

我有以下 html 结构 asdasdasdas asdasdasdas asdasdasdas asdasdasdas Content to be excluded 我需要的是,当我搜索 div id="rn_answertext" 时,我…

牵强ㄟ 2024-11-11 16:57:09 4 0

hpricot:从 URL 获取图像并解析元素

我正在尝试获取页面内图像的确切 URL,然后下载它。我还没有到达下载点,因为我正在尝试隔离图像的 URL。这是代码: #!/usr/bin/ruby -w require 'rub…

鹿! 2024-11-11 15:31:47 4 0

Hpricot - 未定义的方法“to_sym”对于 nil:NilClass

我最近做了一次捆绑更新,最终破坏了很多东西。我无法解决的问题之一是使用 hpricot 来格式化文本。 之前有 hpricot 用户遇到过这个 to_sym for nilCl…

如果没有 2024-11-07 20:04:02 4 0

使用 hpricot 构建 flashvar 数组

我之前曾使用 hpricot 从某些 HTML 标签内的网站获取内容,但是我正在尝试构建此页面上找到的所有 flashvar 的数组 http://view-source:http://megavi…

徒留西风 2024-11-02 15:00:57 3 0

如何查找“”中的href元素值用红宝石标记

我的目标是找到谷歌搜索结果中的第一个结果并收集站点链接,所以我构建了这个脚本: require 'hpricot' require 'open-uri' require 'mechanize' quer…

太阳哥哥 2024-10-30 15:38:08 5 0

Ruby:清理 HTML、使用 Hpricot 还是仅使用正则表达式?

我希望对 HTML 进行一些基本的清理。基本上想要创建一个允许的标签白名单并拒绝其他任何内容。 在这种情况下,Hpricot 值得吗?它是否有一个我忽略的…

樱桃奶球 2024-10-30 02:23:53 5 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文