Nutch - Lucene - 捕获页面内容
我用 Java Nutch 爬取了一些页面 另外,我用 Java 中的 Lucene 制作了一个模块,允许对索引文档执行查询。 我知道我创建了 Nutch 字段,例如 url、权重和标题。但我对捕获每个页面的内容感兴趣。我如何使用 Lucene 并知道我已经爬行了 nutch 来做到这一点?
谢谢
I have crawled a few pages with Java Nutch
Also I have made a module with Lucene in Java which allows execute queries on indexed documents.
I know I created Nutch fields like url, weight and the title. But I am interested in capturing the content of each page. How I can do it using Lucene and knowing I have crawled with nutch?
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
data:image/s3,"s3://crabby-images/d5906/d59060df4059a6cc364216c4d63ceec29ef7fe66" alt="扫码二维码加入Web技术交流群"
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含 Lucene 索引,所以我想知道为什么您想要另一个???
Nutch 有一个 jsp 前端,您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统,因此您可以检索页面的缓存数据,但随后您必须再次解析它并再次索引它。
You need to give more details about what you want to achieve... because Nutch already includes a Lucene Index so I wonder why you want another one????
Nutch has a jsp front-end where you can look at, and find how to query for some field content. There is a cache system implemented so you can retrieve the cached data of page, but then you have to parse it again and index it again.