使用CrawlDbReader读取Nutch爬行数据

发布于 2024-12-25 19:18:08 字数 257 浏览 3 评论 0原文

我正在使用nutch 1.4来实现一个专注的爬虫。谁能告诉我如何在我的 JSP 程序中使用 nutch CrawlDbReader、LinkDbReaderSegmentReader API 以便我可以为我的项目创建自定义 UI 。 具体来说,我需要发出 readdbreadseg 等命令来抓取数据并通过浏览器获取输出。

I am using nutch 1.4 to implement a focused crawler. Can anyone tell me how to use the nutch CrawlDbReader, LinkDbReader and SegmentReader APIs in my JSP program so that I can create custom UI for my project.
Specifically, I need to issue commands like readdb, readseg etc to the crawl data and get the output through a browser.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

带上头具痛哭 2025-01-01 19:18:08

这些 API 是否有什么特别之处,使得这不仅仅是“将数据从服务器传递到客户端”问题?
您可以使用 API 来获取数据。只需看看 nutch.sh 如何使用它们,以及 main() 如何构建并执行类似的操作即可。然后通过 XML 或 JSON 或任何其他方式将数据传递给客户端。

Is there something special with these APIs that make this more than "pass data from server to client" issue?
You can use the APIs to get the data. Just look how they are used by nutch.sh, and how the main() is built and do something similar. Then pass the data to the client wither by XML or by JSON or any other way.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文