Hadoop项目的存储库组织

发布于 2024-09-03 10:36:51 字数 146 浏览 5 评论 0原文

我正在开始一个新的 Hadoop 项目,该项目将有多个 hadoop 作业(因此有多个 jar 文件)。使用 Mercurial 进行源代码控制,我想知道组织存储库结构的最佳方式是什么?每个作业是否应该位于单独的存储库中,或者将它们保留在同一个存储库中但分解为文件夹会更有效吗?

I am starting on a new Hadoop project that will have multiple hadoop jobs(and hence multiple jar files). Using mercurial for source control, I was wondering what would be optimal way of organizing the repository structure? Should each job live in separate repo or would it be more efficient to keep them in the same, but break down into folders?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

忆离笙 2024-09-10 10:36:51

如果您正在对 Hadoop 作业进行管道化(一个作业的输出是另一个作业的输入),我发现最好将其中大部分保留在同一个存储库中,因为我倾向于生成许多可以在各种应用中使用的常用方法。先生职位。

就我个人而言,我将流作业与更传统的作业保存在单独的存储库中,因为通常没有依赖性。

您打算使用 DistributedCache 或流作业吗?您可能需要一个单独的目录来存放您分发的文件。每个 Hadoop 作业真的需要一个 JAR 吗?我发现我没有。

如果您提供有关您计划使用 Hadoop 做什么的更多详细信息,我可以看到我还能提出什么建议。

If you're pipelining the Hadoop jobs (output of one is the input of another), I've found it's better to keep most of it in the same repository since I tend to generate a lot of common methods I can use in the various MR jobs.

Personally, I keep the streaming jobs in a separate repo from my more traditional jobs since there are generally no dependencies.

Are you planning on using the DistributedCache or streaming jobs? You might want a separate directory for files you distribute. Do you really need a JAR per Hadoop job? I've found I don't.

If you give more details about what you plan on doing with Hadoop, I can see what else I can suggest.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文