使用Nutch爬取指定URL列表
我有一百万个 URL 列表需要获取。我使用这个列表作为 nutch 种子,并使用 Nutch 的基本 crawl 命令来获取它们。但是,我发现 Nutch 会自动获取不在列表中的 URL。我确实将爬网参数设置为-深度1 -topN 1000000。但它不起作用。有谁知道该怎么做?
I have one million URL list to fetch. I use this list as nutch seeds and use the basic crawl command of Nutch to fetch them. However, I find that Nutch automatically fetches not-on-list URLs. I do set the crawl parameters as -depth 1 -topN 1000000. But it does not work. Does anyone know how to do this?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
在
nutch-site.xml
中设置此属性。 (默认情况下为 true,因此它将外链接添加到crawldb)Set this property in
nutch-site.xml
. (by default its true so it adds outlinks to the crawldb)命令
即使问题仍然存在,请尝试删除您的 nutch 文件夹并重新启动整个过程。
Command
Even if the problem persists, try to delete your nutch folder and restart the whole process.