使用 nutch 爬行时出现 IOException

发布于 2025-01-06 03:42:37 字数 682 浏览 6 评论 0原文

在用 nutch(1.4) 爬行了一天之后......最后我得到了以下异常的坏坏：

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

。

我有 20 个新闻网站，nutch 的输入参数是：深度 3 和 topN -1 我的 linux 根目录有足够的空间和大约 4GB 的内存我该如何解决这个问题？谢谢。

原文

After one day crawling with nutch(1.4) ... at last i got the bad bad below exception:

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

i have 20 news site and input argument of nutch is : depth 3 and topN -1
i have enough space in root directory of my linux and about 4GB of ram
how can i solve this issue?
thanks.

分享到QQ

分享到微博