当前位置：文江博客话题详情

以编程方式检测“最重要的内容” 在一页上

发布于 2024-07-24 22:48:50 字数 220 浏览 9 评论 0原文

已经做了哪些工作（如果有的话）来自动确定 html 文档中最重要的数据？举个例子，想象一下您的标准新闻/博客/杂志风格的网站，其中包含导航（可能带有子菜单）、广告、评论和奖品 - 我们的文章/博客/新闻正文。

您如何以自动方式确定新闻/博客/杂志上的哪些信息是主要数据？

注意：理想情况下，该方法适用于格式良好的标记和糟糕的标记。是否有人使用段落标签来组成段落或一系列中断。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

滥情哥ㄟ 2024-07-31 22:48:50

可读性在这方面做得很好。

它是开源的，发布在 Google 代码上。

更新：我看到（通过 HN）有人使用 Readability 来自动将 RSS 提要转换为更有用的格式。

回复收藏 0 原文

琉璃繁缕 2024-07-31 22:48:50

想象一下您的标准新闻/博客/杂志风格的网站，其中包含导航（可能带有子菜单）、广告、评论和奖品 - 我们的文章/博客/新闻正文。
您如何以自动方式确定新闻/博客/杂志上的哪些信息是主要数据？

我可能会尝试这样的事情：

打开 URL
从该页面读取到同一网站的所有链接，
跟踪所有链接并为每个 URL（HTML 文件）构建一个 DOM 树，
这应该可以帮助您提出冗余内容（包括模板等）
比较同一站点上所有文档的 DOM 树（树行走）
剥离所有冗余节点（即重复的、导航标记、广告等）
尝试识别相似的节点，并剥离（如果可能）
找到在以下位置找不到的最大唯一文本块该网站上的其他 DOM（即独特的内容）
添加为进一步处理的候选者

这种方法似乎很有前途，因为它做起来相当简单，但仍然具有良好的自适应潜力，即使对于复杂的 Web 2.0 页面也是如此。过度使用模板，因为它会识别同一网站上所有页面之间的相似 HTML 节点。

通过简化使用评分系统来跟踪先前被识别为包含唯一内容的 DOM 节点，这可能会得到进一步改进，以便这些节点优先用于其他页面。

回复收藏 0 原文

花想c 2024-07-31 22:48:50

有时，CSS 媒体部分定义为“打印”。它的预期用途是“单击此处打印此页”链接。通常人们用它来去掉很多多余的信息，只留下信息的实质。

http://www.w3.org/TR/CSS2/media.html

我会尝试阅读这种风格，然后刮掉任何可见的东西。

回复收藏 0 原文

挽袖吟 2024-07-31 22:48:50

您可以使用支持向量机进行文本分类。一种想法是将页面分成不同的部分（假设每个结构元素就像 div 是一个文档）并收集它的一些属性并将其转换为向量。（正如其他人所建议的，这可能是单词数、链接数、图像数，越多越好。）

首先从一大组文档（100-1000）开始，您已经选择了哪个部分是主要部分。然后使用这个集合来训练你的 SVM。

对于每个新文档，您只需将其转换为向量并将其传递给 SVM。

这个向量模型实际上在文本分类中非常有用，你不一定需要使用 SVM。您也可以使用更简单的贝叶斯模型。

如果您有兴趣，可以在信息简介中找到更多详细信息检索。（可在线免费获取）

回复收藏 0 原文

抚你发端 2024-07-31 22:48:50

我认为最直接的方法是寻找最大的没有标记的文本块。然后，一旦找到它，找出它的边界并提取它。您可能希望从“非标记”中排除某些标签，例如链接和图像，具体取决于您的目标。如果它有一个界面，可能会包含一个要从搜索中排除的标签的复选框列表。

您还可以查找 DOM 树中的最低级别，并找出其中哪个元素最大，但这在写得不好的页面上效果不佳，因为 dom 树经常在此类页面上损坏。如果您最终使用此功能，我会想出一些方法来在尝试之前查看浏览器是否已进入怪异模式。

您也可以尝试使用其中的多项检查，然后提出一个指标来决定哪个是最好的。例如，仍然尝试使用上面的第二个选项，但如果浏览器正常进入怪癖模式，则给其结果较低的“评级”。这样做显然会影响性能。

回复收藏 0 原文

初见你 2024-07-31 22:48:50

我认为一个非常有效的算法可能是“哪个 DIV 中的文本最多，但链接很少？”

广告很少有超过两三个句子的文字。例如，请查看本页的右侧。

内容区域几乎总是页面上宽度最大的区域。

回复收藏 0 原文

风筝在阴天搁浅。 2024-07-31 22:48:50

我可能会从标题和 Head 标签中的其他任何内容开始，然后按顺序过滤标题标签（即 h1、h2、h3 等）...除此之外，我想我会按顺序从上到下底部。根据其样式，可以安全地假设页面标题具有 ID 或唯一类。

回复收藏 0 原文

小嗲 2024-07-31 22:48:50

我会寻找带有标点符号的句子。菜单、页眉、页脚等通常包含单独的单词，但不包含以逗号结尾和以句点或等效标点符号结尾的句子。

您可以查找包含带标点符号的句子的第一个和最后一个元素，并获取其间的所有内容。标题是一种特殊情况，因为它们通常也没有标点符号，但您通常可以将它们识别为紧邻句子之前的 Hn 元素。

回复收藏 0 原文

所谓喜欢 2024-07-31 22:48:50

虽然这显然不是答案，但我认为重要内容位于样式页面的中心附近，并且通常由几个被标题等打断的块组成。结构本身也可能是标记中的一个泄露点。

文章/帖子/线程之间的差异将是一个很好的过滤器，可以找出哪些内容区分特定页面（显然，必须对此进行增强，以过滤掉广告、“当日报价”或横幅等随机垃圾）。多个页面的内容结构可能非常相似，因此不要过度依赖结构差异。

回复收藏 0 原文

笔落惊风雨 2024-07-31 22:48:50

Instapaper 在这方面做得很好。您可能需要查看 Marco Arment 的博客，了解有关他如何做到这一点的提示。

回复收藏 0 原文

望她远 2024-07-31 22:48:50

如今，大多数新闻/博客网站都使用博客平台。
所以我会创建一组搜索内容的规则。
例如，两个最流行的博客平台是 wordpress 和 Google Blogspot。

WordPress 帖子的标记为：

<div class="entry">
    ...
</div>

Blogspot 帖子的标记为：

<div class="post-body">
    ...
</div>

如果通过 css 类搜索失败，您可以转向其他解决方案，识别最大的文本块等。

Today most of the news/blogs websites are using a blogging platform.
So i would create a set of rules by which i would search for content.
By example two of the most popular blogging platforms are wordpress and Google Blogspot.

Wordpress posts are marked by:

<div class="entry">
    ...
</div>

Blogspot posts are marked by:

<div class="post-body">
    ...
</div>

If the search by css classes fails you could turn to the other solutions, identifying the biggest chunk of text and so on.

回复收藏 0 原文

っ左 2024-07-31 22:48:50

由于 Readability 不再可用：

如果您只对结果感兴趣，则可以使用 Readability 的后继者 Mercury< /a>，网络服务。
如果您对如何完成此操作的代码感兴趣并且更喜欢 JavaScript，那么可以使用 Mozilla 的 Readability.js，用于 Firefox 的阅读器视图。
如果你更喜欢 Java，你可以看看 Crux，它也做得很好。
或者，如果 Kotlin 更适合您的语言，那么您可以查看 Readability4J，这是上述 Readability 的端口.js。