hpricot

投稿关注

文章 1 浏览 61

Hpricot：如何在没有其他 html 子元素的情况下提取内部文本

我正在开发一个 vim rspec 插件（https://github.com/skwp/vim-rspec） - 我正在从 rspec 解析一些 html。它看起来像这样： doc = %{ This is the hea…

ペ泪落弦音 2024-12-28 07:08:35 1 0

如何使用 nokogiri/hpricot 和其他 gem 在网页中 grep 文件名和扩展名？

我正在开发一个应用程序，我必须 1）获取网站的所有链接 2）然后获取每个文件中的所有文件和文件扩展名的列表网页/链接的。我已经完成了第一部分:) …

猫烠⑼条掵仅有一顆心 2024-12-25 02:49:46 1 0

来自 RSS 的 Hpricot 空链接元素

我目前正在 Ruby 中使用 Hpricot 解析 RSS 提要。除元素外，所有元素都是可检索的。这就是我正在做的事情：当我执行 ("/link").inspect 时，guid …

夏末染殇 2024-12-19 02:57:26 3 0

从没有不同 URL 的网站中删除结果

我正在尝试使用 SayNoTo0870 自动化搜索替代电话号码的过程。每次搜索备用号码或名称时，都会显示 '/companysearch.php' 页面。显然这个页面没有任何…

因为看清所以看轻 2024-12-18 05:21:01 2 0

无法提取 html 表格行

我尝试提取上表中列出的所有五行。我正在使用 Ruby hpricot 库使用 xpath 表达式提取表行。在我的示例中，我使用的 xpath 表达式是 /html/body/cen…

寄风 2024-12-17 06:31:50 2 0

如何使用 Ruby 抓取具有多个页面的网站并创建一个 html 页面？

所以我想做的是抓取这个网站： http://boxerbiography.blogspot.com/ 并创建一个 HTML 页面，我可以打印该页面或将其发送到我的 Kindle。我正在考虑…

一身软味 2024-12-14 00:51:46 1 0

使用 hpricot 解析 3 个表列

我得到了一个 HTML 文档，其中包含非常简单的表格，如下所示 CountryDate Belgium 20 April 2001 (original release) Belgium 25 April 2001 France 2…

花伊自在美 2024-12-13 16:10:30 1 0

通过 nokogiri 或 hpricot 进行屏幕抓取

我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…

醉城メ夜风 2024-12-10 20:43:58 3 0

禁用 Nokogiri 中的错误纠正

我正在处理许多格式错误的 HTML 页面。至少，我认为它们格式错误，因为当我在 Nokogiri 中解析它们然后执行 to_html 时，元素不再正确显示。然而，当…

失眠症患者 2024-12-07 16:41:10 3 0

Hpricot 搜索某一特定命名空间下的所有标签

例如，我有以下代码： Content Development 这个 XHTML 片段并不严格合法，因为之前没有声明名称空间，所以我无法使用具有更好名称空间支持的 Nokogir…

非要怀念 2024-12-02 02:49:24 5 0

hpricot-UTF-8 中的无效字节序列

我已经做了一些搜索，但没有一个可以解决这个特殊的、意想不到的问题。看看下面的代码： require 'open-uri' require 'hpricot' doc = Hpricot(open(…

在梵高的星空下 2024-11-27 05:31:07 2 0

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据，但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站，但我对使用 mechanize 还很陌生，而且我真的对如何使用它感到…

邮友 2024-11-19 13:14:22 8 0

从网络上抓取 URL

Rehabilitation Science 对于上面的例子，我想同时获取部门名称“康复科学”及其主页网址“http://www.utoronto.ca/gdrs/”。有人可以建议一些可以…

耳根太软 2024-11-16 22:56:10 7 0

如何使用 hpricot 从超链接中提取 URL？

我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。因此，如果我的输入字符串之一是 resource 我想得到： http://target.com/resour…

当梦初醒 2024-11-16 10:04:03 6 0

网页源代码中的奇怪符号

我有问题我尝试使用 Hpricot 解析 UTF-8 格式并包含俄语文本的网页问题是我收到带有一些奇怪符号的俄语文本，并且当我尝试将 (iconv) 从 UTF-8 转换…

明月夜 2024-11-16 07:10:45 6 0

共 7 页
1
2
3
4
5
下一页

友情链接

文江博客