有没有工具可以隔离网页内容？

发布于 2024-10-04 01:52:08 字数 281 浏览 0 评论 0原文

我正在开展一个学校项目，我们想在其中分析网页的内容。然而，我们不想处理诸如导航栏和评论之类的事情。如果我们正在查看一个特定的网站，我们可以创建一个解析器来专门为该网站过滤掉此类无关的内容，但我们希望能够在我们以前可能从未遇到过的任意网站上工作。

我觉得这种希望有点太大了，所以如果这样的东西不存在的话我不会感到惊讶，但是有人知道有一种工具可以在任意网站上进行这种内容隔离吗？我有幸与同一站点的其他人比较页面，但它并不完美，并且会留下评论等。

我正在使用 Java 工作，但欢迎任何语言的开源内容，我可以将其用于创意。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

铜锣湾横着走 2024-10-11 01:52:08

我对此有点晚了（尤其是对于学校项目），但如果有人在将来的某个时候发现这一点，以下内容可能会有所帮助。

我偶然发现了一个 Java 库来完成这个任务。在我的简单测试中，性能与可读性相似。

http://code.google.com/p/boilerpipe/

回复收藏 0 原文

听闻余生 2024-10-11 01:52:08

您可以尝试 arc90 的非官方 API可读性。

基本上，可读性的作用是提取网页上的内容并将其作为格式良好的文章呈现给您。导航栏、评论以及网页内容周围的所有其他内容都消失了。

回复收藏 0 原文

暮年 2024-10-11 01:52:08

我对这次对话也有点晚了，但是...

Java Boilerpipe 提取器可能就是您想要的（可能是ArticleSentencesExtractor），尽管 github 上至少有 1 个 arc90 可读性的 java 端口。

如果你想构建一个穷人的锅炉管道，你可以尝试比较同一站点的 2 个页面（假设它们使用相同的模板，你可能会得到一个有趣的结果）

锅炉管道、可读性和基于差异的黑客之间的主要区别是该boilerpipe将删除所有html但保留一些结构

回复收藏 0 原文

杯别 2024-10-11 01:52:08

我怀疑是否存在任何可以满足您要求的东西。如果没有某种语义标记，几乎不可能将“真实”内容与其他内容区分开来。这是一项需要真正智慧的任务。

当然，有一些很好的工具可以解析不同程度正确性的 HTML，并且通常可以拼凑出一些基于模式的解决方案来处理特定站点上的页面……假设存在需要引出的通用结构/模式。

回复收藏 0 原文

~没有更多了~

关于作者

两个我

暂无简介

0 文章

0 评论

22 人气

关注发私信

lioqio

文章 0 评论 0

关注

Single

文章 0 评论 0

关注

禾厶谷欠

文章 0 评论 0

关注

alipaysp_2zg8elfGgC

文章 0 评论 0

关注

qq_N6d4X7

文章 0 评论 0

关注

放低过去

文章 0 评论 0

友情链接

文江博客

有没有工具可以隔离网页内容？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签