使用 nutch 爬行时出现 IOException

发布于 2025-01-06 03:42:37 字数 682 浏览 6 评论 0原文

在用 nutch(1.4) 爬行了一天之后......最后我得到了以下异常的坏坏:

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

我有 20 个新闻网站,nutch 的输入参数是:深度 3 和 topN -1 我的 linux 根目录有足够的空间和大约 4GB 的内存 我该如何解决这个问题? 谢谢。

After one day crawling with nutch(1.4) ... at last i got the bad bad below exception:

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

.

i have 20 news site and input argument of nutch is : depth 3 and topN -1
i have enough space in root directory of my linux and about 4GB of ram
how can i solve this issue?
thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

¢好甜 2025-01-13 03:42:37

我认为您可能遇到这个问题: http://wiki.apache.org/nutch/NutchGotchas

那里提供的答案指出:

我们找到的解决该情况的答案是,您很可能 /tmp 中的磁盘空间不足。考虑使用另一个位置,或者可能为 hadoop.tmp.dir 使用另一个分区(可以在 nutch-site.xml 中设置),为大型瞬态文件提供足够的空间,或者使用 Hadoop 集群。

I think that you might have this problem: http://wiki.apache.org/nutch/NutchGotchas

The answer provided there states:

The answer we find addressed the situation is that you're most likely out of disk space in /tmp. Consider using another location, or possibly another partition for hadoop.tmp.dir (which can be set in nutch-site.xml) with plenty of room for large transient files or using a Hadoop cluster.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文