Nutch - Lucene - 捕获页面内容

发布于 2024-10-06 12:35:12 字数 164 浏览 7 评论 0原文

我用 Java Nutch 爬取了一些页面 另外,我用 Java 中的 Lucene 制作了一个模块,允许对索引文档执行查询。 我知道我创建了 Nutch 字段,例如 url、权重和标题。但我对捕获每个页面的内容感兴趣。我如何使用 Lucene 并知道我已经爬行了 nutch 来做到这一点?

谢谢

I have crawled a few pages with Java Nutch
Also I have made a module with Lucene in Java which allows execute queries on indexed documents.
I know I created Nutch fields like url, weight and the title. But I am interested in capturing the content of each page. How I can do it using Lucene and knowing I have crawled with nutch?

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

多情出卖 2024-10-13 12:35:24

您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含 Lucene 索引,所以我想知道为什么您想要另一个???
Nutch 有一个 jsp 前端,您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统,因此您可以检索页面的缓存数据,但随后您必须再次解析它并再次索引它。

You need to give more details about what you want to achieve... because Nutch already includes a Lucene Index so I wonder why you want another one????
Nutch has a jsp front-end where you can look at, and find how to query for some field content. There is a cache system implemented so you can retrieve the cached data of page, but then you have to parse it again and index it again.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文