想要比较 Hadoop 上的两个连续作业

发布于 2024-11-02 20:44:59 字数 383 浏览 5 评论 0原文

我想知道是否可以比较 Hadoop 中的两个连续作业。如果没有，如果有人能告诉我如何继续，我将不胜感激。准确地说，我想根据两项工作到底做了什么来比较这些工作？这样做的原因是创建一个统计数据，了解 Hadoop 上执行的有多少作业在行为方面相似。例如，对同一输入执行同一排序函数多少次。

例如，如果第一份工作执行了像 SortList(A) 这样的操作，而其他一些工作执行了 SortList(A)+Group(result(SortList(A)) 。现在，我想知道在 Hadoop 中是否有一些映射存储在像 JobID X 这样的地方-> SortList(A)

到目前为止，我认为这个问题是在 Hadoop 中找到入口点，并尝试了解作业是如何创建的以及以什么形式（以代码形式或一些描述），但我无法成功地弄清楚。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

纸短情长 2024-11-09 20:44:59

Hadoop 的计数器可能是一个不错的起点。您可以定义自己的计数器名称（就像每个计数器名称都是您正在处理的数据集），并在每次对其执行排序时递增该计数器。然而，找到您正在处理的数据集可能是更困难的任务。

这是我找到的一个教程：
http://philippeadjiman。 com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/

回复收藏 0 原文

醉梦枕江山 2024-11-09 20:44:59

不。Hadoop 作业只是程序。它们可能有任何副作用。他们可以写入普通文件、hdfs 文件或数据库。 hadoop 中没有任何内容记录他们的所有活动。所有hadoop 都是管理调度和数据流。

回复收藏 0 原文

~没有更多了~

关于作者

暗地喜欢

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

想要比较 Hadoop 上的两个连续作业

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

想要比较 Hadoop 上的两个连续作业

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。