hpricot

hpricot

文章 1 浏览 61

Hpricot:如何在没有其他 html 子元素的情况下提取内部文本

我正在开发一个 vim rspec 插件(https://github.com/skwp/vim-rspec) - 我正在从 rspec 解析一些 html。它看起来像这样: doc = %{ This is the hea…

ペ泪落弦音 2024-12-28 07:08:35 1 0

如何使用 nokogiri/hpricot 和其他 gem 在网页中 grep 文件名和扩展名?

我正在开发一个应用程序,我必须 1)获取网站的所有链接 2)然后获取每个文件中的所有文件和文件扩展名的列表 网页/链接的。 我已经完成了第一部分:) …

猫烠⑼条掵仅有一顆心 2024-12-25 02:49:46 1 0

来自 RSS 的 Hpricot 空链接元素

我目前正在 Ruby 中使用 Hpricot 解析 RSS 提要。 除 元素外,所有元素都是可检索的。 这就是我正在做的事情: 当我执行 ("/link").inspect 时,guid …

夏末染殇 2024-12-19 02:57:26 3 0

从没有不同 URL 的网站中删除结果

我正在尝试使用 SayNoTo0870 自动化搜索替代电话号码的过程。每次搜索备用号码或名称时,都会显示 '/companysearch.php' 页面。 显然这个页面没有任何…

因为看清所以看轻 2024-12-18 05:21:01 2 0

无法提取 html 表格行

我尝试提取上表中列出的所有五行。 我正在使用 Ruby hpricot 库使用 xpath 表达式提取表行。 在我的示例中,我使用的 xpath 表达式是 /html/body/cen…

寄风 2024-12-17 06:31:50 2 0

如何使用 Ruby 抓取具有多个页面的网站并创建一个 html 页面?

所以我想做的是抓取这个网站: http://boxerbiography.blogspot.com/ 并创建一个 HTML 页面,我可以打印该页面或将其发送到我的 Kindle。 我正在考虑…

一身软味 2024-12-14 00:51:46 1 0

使用 hpricot 解析 3 个表列

我得到了一个 HTML 文档,其中包含非常简单的表格,如下所示 CountryDate Belgium 20 April 2001 (original release) Belgium 25 April 2001 France 2…

花伊自在美 2024-12-13 16:10:30 1 0

通过 nokogiri 或 hpricot 进行屏幕抓取

我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…

醉城メ夜风 2024-12-10 20:43:58 3 0

禁用 Nokogiri 中的错误纠正

我正在处理许多格式错误的 HTML 页面。至少,我认为它们格式错误,因为当我在 Nokogiri 中解析它们然后执行 to_html 时,元素不再正确显示。然而,当…

失眠症患者 2024-12-07 16:41:10 3 0

Hpricot 搜索某一特定命名空间下的所有标签

例如,我有以下代码: Content Development 这个 XHTML 片段并不严格合法,因为之前没有声明名称空间,所以我无法使用具有更好名称空间支持的 Nokogir…

非要怀念 2024-12-02 02:49:24 5 0

hpricot-UTF-8 中的无效字节序列

我已经做了一些搜索,但没有一个可以解决这个特殊的、意想不到的问题。 看看下面的代码: require 'open-uri' require 'hpricot' doc = Hpricot(open(…

在梵高的星空下 2024-11-27 05:31:07 2 0

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…

邮友 2024-11-19 13:14:22 8 0

从网络上抓取 URL

Rehabilitation Science 对于上面的例子,我想同时获取部门名称“康复科学”及其主页网址“http://www.utoronto.ca/gdrs/”。 有人可以建议一些可以…

耳根太软 2024-11-16 22:56:10 7 0

如何使用 hpricot 从超链接中提取 URL?

我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。 因此,如果我的输入字符串之一是 resource 我想得到: http://target.com/resour…

当梦初醒 2024-11-16 10:04:03 6 0

网页源代码中的奇怪符号

我有问题 我尝试使用 Hpricot 解析 UTF-8 格式并包含俄语文本的网页 问题是我收到带有一些奇怪符号的俄语文本,并且当我尝试将 (iconv) 从 UTF-8 转换…

明月夜 2024-11-16 07:10:45 6 0
更多

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文