Apache PIG 问题

发布于 2024-11-18 05:15:21 字数 565 浏览 2 评论 0原文

我对运行 Pig 脚本/ Map-Reduce 作业有几个问题。

  1. 我知道pig在真正开始执行map/reduce作业之前会创建逻辑计划、物理计划以及执行计划;我可以使用命令 explain查看逻辑/物理计划;但是我如何查看执行计划(我想它列出了计划的不同映射/归约任务)?在 Pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想要了解每个作业解决什么问题。

  2. 是否有任何明确的指南可以用来理解所创建的计划,因为口水是很难理解的。

  3. 我可以通过更改输入文件块的数量来更改映射作业的数量。我也可以控制减少作业的数量吗?如何设置减速器的数量?

  4. mapper/reducer 节点中的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过 -Xmx 1024m 选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业常常会失败 - 可能对可以提供的值有一些限制?

非常感谢!

I have few questions on running the pig script/ map-reduce jobs.

  1. I know that pig creates logical, physical and then execution plans before it really starts executing the map/reduce job; I am able to look at the logical/physical plans using the command explain <alias_name>; But how do I view the execution plan (which I suppose list the different map/reduce tasks planned)? In the course of pig execution, I see that many jobs (map/reduce pair) are created. Want to understand what each of these jobs solve.

  2. Is there any definitive guide which I can use to understand the plans created because what is spat is difficult to understand.

  3. I am able to change the number of map jobs by changing the number of input file blocks. Do I have control over the number of reduce jobs as well? How do I set the number of reducers?

  4. What is the default heap memory size in mapper/reducer nodes? Which job parameters reflect these? Will I be able to change the heap memory by -Xmx 1024m option? My jobs used to fail when I set the heap memory in this way - May be there are some restrictions on what values can be supplied?

Thanks much!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

俯瞰星空 2024-11-25 05:15:21
  1. 解释生成了不同类型的计划。提供一个目录路径而不是一个文件来从“explain”获取所有 3 个计划。

  2. 不知道。

  3. set default_parallel 10 会将reduce 作业数量设置为10。

  4. 它必须在您的 hadoop 设置中。

  1. There are different kinds of plans generated by explain. Give a directory path instead of a file to get all 3 plans from 'explain'.

  2. No idea.

  3. set default_parallel 10 would set number of reduce jobs to 10.

  4. It must be in your hadoop settings.

反话 2024-11-25 05:15:21
  1. “Explain(pig command )” ALIAS-NAME 解释物理计划(就 Map reduce 作业而言)

  2. 别名将在 MR 作业中分组在一起。在计划阶段本身,人们可以看到,所有别名都已分组到给定的 MR 中。

  3. 为了控制减速器的数量,可以在编写 join 、 groupby 时使用“USING PARALLELdesired_no”,或者在开始时使用“setdefault_paralleldesiredno”猪脚本。

  4. 这取决于一只奔跑的猪在哪里。
    如果是 MRv1 :设置 mapred.java.opts -Xmx
    在mrv2中:设置mapred.map.size,设置mapred.map.java.opts -Xmx

  1. "Explain(pig command )" ALIAS-NAME explains the physical plan (in terms of Map reduce jobs)

  2. Alias will be grouped together in a MR job . During the plan phase itself one can see , whicl all alias have been grouped into a given MR

  3. To control number of reducer one can use "USING PARALLEL desired_no " when writing joins , groupby or "set default_parallel desired no" at starting of pig script .

  4. This depends on where is one running pig .
    if its MRv1 : set mapred.java.opts -Xmx
    in mrv2 : set mapred.map.size , set mapred.map.java.opts -Xmx

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文