网络爬行 - 用 Java 识别网页上的主要内容

发布于 2024-12-11 10:56:31 字数 410 浏览 4 评论 0原文

从事一个小爱好项目，抓取一些网页，主要是我们的用户发布的博客和新闻网站。

我们有一个小脚本，它只需要一个 URL 列表并抓取拉入所有内容的页面，基本上是使用 Apache HTTP 组件的 hello world 版本...

无论如何，我们想对这些上出现的文本进行一些分析页。但由于任何 URL 都可以以任何格式出现，我们需要一些相当可靠的方法来识别网页上的主要内容（这里有一些错误是可以的）。

有谁知道任何开源框架或 Java 中的小脚本可用于识别网页中的主要文本内容？

我想到了几种方法，例如简单地查找具有最可见文本的最大 DOM 元素，或者比较用于描述某些文本（即元数据）与实际文本数据的字符数。我希望有人能在 Java 中发布一些东西来做到这一点，但如果没有，因为我将不厌其烦地这样做，是否需要这样的实用程序？

干杯!

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

何以心动 2024-12-18 10:56:31

我认为 boilerpipe 对您有用。
看看这里：http://code.google.com/p/boilerpipe/

并且这是教程：
http://code.google.com/p/boilerpipe/wiki/QuickStart

对我来说似乎很简单：

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);

I think boilerpipe is useful for you.
Have a look here: http://code.google.com/p/boilerpipe/

And here is the tutorial:
http://code.google.com/p/boilerpipe/wiki/QuickStart

Seems quite simple to me:

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);

回复收藏 0 原文

~没有更多了~