从网页中提取有意义的完整内容

发布于 2024-07-14 01:05:26 字数 435 浏览 5 评论 0原文

我正在通过使用爬虫挖掘网络内容来进行一些分析。网页的文章正文周围经常包含杂乱内容（例如广告、不必要的图像和无关链接），这些内容会分散用户对实际内容的注意力。

据我了解，提取合理内容是一个难题，考虑到没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置。

我可以找到一些像这样的开源解决方案： https://metacpan.org/pod/HTML:: ContentExtractor

但我很好奇是否有人处理过这个问题并获得了合理的成功率。这似乎是一个相当普遍的问题，我相信有很多专家。我更喜欢基于 JAVA 的解决方案，但这不是一个硬性规则。请提供一些意见。我会深深地感激。

总体结构和结构没有标准。 HTML 中的含义。作者在他们的页面中定义了不同的元素。搜索引擎在这个领域投入了大量资金，它们有自己的秘密武器来索引内容并获取某种含义和内容。结构出来的搜索排名。

在我们拥有早已预言的“语义网”之前，我们只能对任意 HTML 页面的结构和含义做出有根据的猜测。

寻找标题标签。这些应该为您提供从哪里开始阅读的线索，并希望为您提供内容重要性顺序的概述。

和

之类的内容，其语义如下这些天来了。还要了解常见 CMS 平台（例如 WordPress（“帖子”）或 Drupal（“节点”））使用的标准元素名称。通常这些将用于标记内容。