Nutch - Lucene - 捕获页面内容

发布于 2024-10-06 12:35:12 字数 164 浏览 7 评论 0原文

我用 Java Nutch 爬取了一些页面另外，我用 Java 中的 Lucene 制作了一个模块，允许对索引文档执行查询。我知道我创建了 Nutch 字段，例如 url、权重和标题。但我对捕获每个页面的内容感兴趣。我如何使用 Lucene 并知道我已经爬行了 nutch 来做到这一点？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

多情出卖 2024-10-13 12:35:24

您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含 Lucene 索引，所以我想知道为什么您想要另一个？？？
Nutch 有一个 jsp 前端，您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统，因此您可以检索页面的缓存数据，但随后您必须再次解析它并再次索引它。

回复收藏 0 原文

~没有更多了~