当前位置：文江博客话题详情

HTML Ruby c html-parsing html-content-extraction

如何从 HTML 中提取有意义的文本

发布于 2024-09-28 17:47:12 字数 347 浏览 8 评论 0原文

我想解析一个 html 页面并从中提取有意义的文本。有人知道一些好的算法可以做到这一点吗？

我在 Rails 上开发我的应用程序，但我认为 ruby 在这方面有点慢，所以我认为如果在 c 中存在一些好的库，这将是合适的。

谢谢！！

PD：请不要推荐任何带有java

更新的内容：我找到了这个链接文本< /a>

可悲的是，是在 python 中

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

赠佳期 2024-10-05 17:47:12

使用 Nokogiri，它速度很快，用 C 语言编写，适用于 Ruby 。

（使用正则表达式解析 HTML 之类的递归表达式非常困难且容易出错，我不会走这条路。我只在答案中提到这一点，因为这个问题似乎一次又一次地出现。）

使用真正的解析器，例如上面提到的 Nokogiri，您还可以获得额外的好处，即保留 HTML 文档的结构和逻辑，有时您真的需要那些线索。

回复收藏 0 原文

望笑 2024-10-05 17:47:12

与 Ruby 集成的解决方案

使用 Nokogiri 作为 Amigable Clark kant推荐
使用Hpricot

外部解决方案

如果您的 HTML 格式良好，您可以使用 Expat XML 解析器为此。
对于仅针对 HTML 的内容，W3C 实际上发布了 LibWWW 的代码，其中包含一个简单的 HTML 解析器 (文档）。

回复收藏 0 原文

与风相奔跑 2024-10-05 17:47:12

Lynx 能够做到这一点。如果您想看一下，这是开源的。

回复收藏 0 原文

少女七分熟 2024-10-05 17:47:12

您应该从文本中删除所有尖括号部分，然后折叠空格。
理论上，在其他情况下 < 和 > 不应该出现。页面中到处都包含 < 和 > 而不是它们。

折叠空格：将所有 TAB、换行符等转换为空格，然后将每个空格序列替换为单个空格。

更新：您应该在找到标签后开始。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文