当前位置：文江博客话题详情

Ruby hpricot screen-scraping

我可以使用 Hpricot 查找任何/大多数网站的主要文章文本吗？

发布于 2024-09-10 00:48:57 字数 1435 浏览 7 评论 0原文

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

夏有森光若流苏 2024-09-17 00:48:57

您当然可以使用 Hpricot 从任何给定的 HTML 页面中抓取内容。

这是分步教程： http://www.igvita.com/2007/02/04/ruby-screen-scraper-in-60-seconds/

Hpricot 非常适合使用 XPath 表达式。

但是，您将很难编写任何可以读取任何网页并识别主要文章文本的通用内容。我认为你需要某种基本的人工智能（至少）来实现这一点，这远远超出了 Hpricot 的能力范围。

您可以做的也许是为您想要抓取的常见 HTML 格式（可能是 Wordpress、Tumblr、Blogger 等）编写一组代码（如果有这样一组代码）。

我也确信您也可以想出一些启发式来尝试它（基于如何良好的可读性是我猜他们所做的 - 看起来它的工作远非完美）

首先尝试启发式：

1）识别（一组固定的）标签，这些标签可以被认为是“主要文本块”的一部分（例如

等）。

2) 抓取页面并找到页面上仅包含 (1) 中的标签的最大文本块。

3) 从 (2) 返回文本，并删除 (1) 中的标签。

看看可读性的结果，我认为这种启发式也能发挥作用。

回复收藏 0 原文

无需解释 2024-09-17 00:48:57

实际上，可读性是一个开源项目，托管于：http://code.google.com/p/ arc90labs-readability/

阅读主文件后，我看不出有什么理由不能在 ruby 中重新实现它。这是主文件
http://code.google.com/ p/arc90labs-readability/source/browse/trunk/js/readability.js

我建议您查看一下grabArticle函数，看看他们使用哪些指标以及如何做到这一点。

至于你应该使用哪个库来解析和处理 dom，你有多种选择：
nokogiri, libxml-ruby，hpricot，...

所有这些都有一个相当不错的文档也是如此。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

1007 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

娇女薄笑

文章 0 评论 0

biaggi

文章 0 评论 0

xiaolangfanhua

文章 0 评论 0

rivulet

文章 0 评论 0

我三岁

文章 0 评论 0

薆情海

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文