如何使用 Nutch 仅索引具有某些 URL 的页面？

发布于 2024-09-09 09:50:46 字数 360 浏览 12 评论 0原文

我想要 nutch 抓取 abc.com，但我只想索引 car.abc.com。 car.abc.com 链接可以位于 abc.com 中的任何级别。所以，基本上，我希望 nutch 能够正常抓取 abc.com，但只索引以 car.abc.com 开头的页面。例如 car.abc.com/toyota...car.abc.com/honda...

我将 regex-urlfilter.txt 设置为仅包含 car.abc.com 并运行命令“generatecrawl/crawldbcrawl/segments” ，但它只是说“生成器：选择用于提取的 0 条记录，正在退出...”。我猜 car.abc.com 链接仅存在于几个深度级别。

如何做到这一点？谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

极致的悲 2024-09-16 09:50:46

一种方法是使用 mergedb 命令的 -filter 开关。该命令采用爬网数据库作为输入，并创建一个新的爬网数据库，其中过滤了一些网址。只需使用过滤后的爬行数据库进行索引即可。

唯一的缺点是我还没有找到让 mergedb 命令使用除 regex-urlfilter.txt（生成器使用的文件）之外的其他文件的方法。您必须维护两个文件，例如 regex-urlfilter.txt：一个用于带有 abc.com 的生成器，另一个用于 mergedb 命令，该命令排除与 car.abc 不同的 URL。 com。但由于这两个命令都尝试加载相同的文件，因此在调用这两个命令之一之前，您必须将相应的文件重命名为 regex-urlfilter.txt。

如果有人知道配置 mergedb 命令以使用另一个文件的方法，我很高兴听到它！

回复收藏 0 原文

~没有更多了~