从 JobTracker 上已完成的作业中获取 org.apache.hadoop.mapreduce.Job

发布于 2024-12-09 15:05:20 字数 390 浏览 0 评论 0原文

我正在使用 org.apache.hadoop.mapreduce.Job 来创建/提交/运行 MR 作业（Cloudera3，20.2），完成后，在一个单独的应用程序中，我尝试让作业抓取计数器来对它们进行一些工作，这样我就不必每次都重新运行整个 MR 作业来测试我的代码是否有效。

我可以从 JobClient 获取 RunningJob，但不能获取 org.apache.hadoop.mapreduce.Job。 RunningJob 为我提供来自mapred 包的计数器，而Job 为我提供来自mapreduce 包的计数器。我尝试使用 new Job(conf, "job_id")，但这只是创建了一个状态为 DEFINE 的空白作业，而不是 FINISHED。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

杯别 2024-12-16 15:05:20

这是我的做法：

package org.apache.hadoop.mapred;

import java.io.IOException;
import java.net.InetSocketAddress;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.ipc.RPC;

public class FinishedJobHelper {

    public static Counters getCounters(String jobTrackerHost, int jobTrackerPort, String jobIdentifier, int jobId) throws IOException {
        InetSocketAddress link = new InetSocketAddress(jobTrackerHost, jobTrackerPort);
        JobSubmissionProtocol client = (JobSubmissionProtocol) RPC.getProxy(JobSubmissionProtocol.class, JobSubmissionProtocol.versionID, link, new Configuration());
        return client.getJobCounters(new JobID(jobIdentifier, jobId));
    }
}

包应该是 org.apache.hadoop.mapred （不要更改它），因为 JobSubmissionProtocol 是受保护的接口。此方法的问题是您无法检索“退休”的职位。因此，我宁愿不依赖于此，而是在工作完成后立即按下计数器。

...
job.waitForCompletion(true);
//get counters after job completes and push them elsewhere
Counters counters = job.getCounters();
...

希望这会有所帮助。

Here is a how I do it :

package org.apache.hadoop.mapred;

import java.io.IOException;
import java.net.InetSocketAddress;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.ipc.RPC;

public class FinishedJobHelper {

    public static Counters getCounters(String jobTrackerHost, int jobTrackerPort, String jobIdentifier, int jobId) throws IOException {
        InetSocketAddress link = new InetSocketAddress(jobTrackerHost, jobTrackerPort);
        JobSubmissionProtocol client = (JobSubmissionProtocol) RPC.getProxy(JobSubmissionProtocol.class, JobSubmissionProtocol.versionID, link, new Configuration());
        return client.getJobCounters(new JobID(jobIdentifier, jobId));
    }
}

The package should be org.apache.hadoop.mapred (don't change it) since JobSubmissionProtocol is protected interface. The problem with this method is you can't retrieve jobs that are "retired". So I prefer not relaying on this and push the counters as soon as the job completes.

...
job.waitForCompletion(true);
//get counters after job completes and push them elsewhere
Counters counters = job.getCounters();
...

Hope this would help.

回复收藏 0 原文

~没有更多了~

关于作者

野却迷人

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

从 JobTracker 上已完成的作业中获取 org.apache.hadoop.mapreduce.Job

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

从 JobTracker 上已完成的作业中获取 org.apache.hadoop.mapreduce.Job

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。