从博客和其他网页中智能提取标签

发布于 2024-09-17 20:17:00 字数 711 浏览 10 评论 0原文

我不是在谈论 HTML 标签，而是用于描述本网站上的博客文章、YouTube 视频或问题的标签。

如果我只抓取一个网站，我只需使用 xpath 来提取标签，甚至使用正则表达式（如果简单的话）。但我希望能够在 extract_tags() 函数中抛出任何网页并获取列出的标签。

我可以想象使用一些简单的启发式方法，例如查找具有 id 或“标签”类别的所有 HTML 元素等。但是，这非常脆弱，并且对于大量网页可能会失败。你们建议采取什么方法来解决这个问题？

另外，我知道 Zemanta 和 Open Calais，它们都有办法猜测一段文本的标签，但这与提取真实人类已经选择的标签并不相同。但我仍然希望听到任何其他服务/API 来猜测文档中的标签。

编辑：需要明确的是，一个已经适用于此的解决方案将会很棒。但我猜还没有开源软件可以做到这一点，所以我真的只是想听听人们关于适用于大多数情况的可能方法。它不必是完美的。

编辑2：对于建议通常有效的通用解决方案是不可能的，并且我必须为每个网站/引擎编写自定义抓取工具的人，请考虑 arc90可读性工具。我相信该工具能够使用某种启发式算法以令人惊讶的准确性提取网络上任何给定文章的文章文本。我还没有深入研究他们的方法，但它适合一个小书签，而且似乎不太复杂。我知道提取文章可能比提取标签更简单，但它应该作为可能的示例。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不打扰别人 2024-09-24 20:17:00

像 arc90 示例这样的系统，您通过查看标签/文本比率和其他启发式方法来进行工作。页面的文本内容与周围的广告/菜单等之间存在足够的差异。其他示例包括抓取电子邮件或地址的工具。这里有可以检测到的模式、可以识别的位置。就标签而言，尽管您没有太多帮助您将标签与普通文本区分开来，但它只是一个单词或短语，就像任何其他文本一样。侧边栏中的标签列表很难与导航菜单区分开。

有些博客（例如 tumblr）确实有标签，其网址中包含您可以使用的“标记”一词。 Wordpress 类似地也有“.../tag/...”类型的标签 URL。此类解决方案适用于大量博客，无论其单独的页面布局如何，但它们并非在所有地方都适用。

回复收藏 0 原文

携余温的黄昏 2024-09-24 20:17:00

如果源将其数据公开为提要 (RSS/Atom)，那么您也许能够从此结构化数据中获取标签（或标签/类别/主题等）。

另一种选择是解析每个网页并查找根据 rel=tag 微格式。

回复收藏 0 原文

去了角落 2024-09-24 20:17:00

该死的，我只是想建议开放加来。不会有“伟大”的方法来做到这一点。如果您心中有一些目标平台，您可以嗅探 Wordpress，然后查看它们的链接结构，然后再次查看 Flickr...

回复收藏 0 原文

情徒 2024-09-24 20:17:00

我认为您唯一的选择是为每个站点编写自定义脚本。为了让事情变得更简单，你可以看看 AlchemyApi。它们具有与 OpenCalais 类似的实体提取功能，但它们还具有“结构化内容抓取”产品这使得它比通过使用简单的视觉约束来识别网页的各个部分来编写 xpath 容易得多。

回复收藏 0 原文

人间不值得 2024-09-24 20:17:00

这是不可能的，因为没有众所周知的、可遵循的规范。即使同一引擎的不同版本也可能创建不同的输出 - 嘿，使用 Wordpress，用户可以创建自己的标记< /a>.

如果您真的对做这样的事情感兴趣，您应该知道这将是一个实时耗时且持续的项目：您将创建一个库来检测页面中正在使用哪个“引擎”，并解析它。如果由于某种原因无法检测到页面，您可以创建新规则来解析并继续。

我知道这不是您正在寻找的答案，但我真的看不到其他选择。我喜欢 Python，所以我会使用 Scrapy 因为它是一个完整的抓取框架：它是完整的，嗯记录在案并且真正可扩展。

回复收藏 0 原文

撞了怀 2024-09-24 20:17:00

尝试制作 Yahoo Pipe 并通过术语提取器模块运行源页面。它可能会或可能不会产生很好的结果，但值得一试。注意 - 启用 V2 引擎。

回复收藏 0 原文

眼藏柔 2024-09-24 20:17:00

看看 arc90，他们似乎还要求出版商使用语义上有意义的标记[参见 https://www.readability.com/publishers/guidelines/#view-exampleGuidelines]，以便他们可以相当容易地解析它，但想必他们必须要么开发了通用规则，例如@dunelmtech建议的标签/文本比率，可以与文章检测一起使用，或者他们可能结合使用一些文本分割算法（来自自然语言处理领域），例如TextTiler和C99，对于文章检测可能非常有用 - 请参阅 http://morphadorner.northwestern.edu/morphadorner/textsegmenter/< /a> 和 google 了解有关两者的更多信息 [发表在学术文献 - 谷歌学者]。

然而，检测您需要的“标签”似乎是一个困难的问题（由于上面评论中已经提到的原因）。我尝试的一种方法是使用一种文本分段（C99 或 TextTiler）算法来检测文章开头/结尾，然后使用 CLASS 和 CLASS 查找 DIV/SPAN/UL。 ID 属性中包含 ..tag..，因为就页面布局而言，标签通常位于文章下方和评论提要上方，这可能效果出奇地好。

不管怎样，看看你是否能进行标签检测会很有趣。
马丁

编辑：我刚刚发现了一些可能真正有用的东西。该算法称为 VIPS [参见：http://www.zjucadcg.cn/dengcai/VIPS/VIPS.html]，代表基于视觉的页面分割。它基于这样的想法：页面内容可以在视觉上分为几个部分。与基于 DOM 的方法相比，VIPS 获得的片段在语义上聚合得多。诸如导航、广告和装饰之类的干扰信息可以很容易地被删除，因为它们通常被放置在页面的某些位置。这可以帮助您非常准确地检测标签块！

回复收藏 0 原文