hadoop 0.20中如何设置map任务的数量?
我正在尝试设置要在 hadoop 0.20 环境中运行的映射任务的数量。 我正在使用旧的 api。 以下是我到目前为止尝试过的选项: conf.set("mapred.tasktrack…
在 hadoop 中并行运行作业
我是 hadoop 新手。 我已经设置了一个 2 节点集群。 如何在 hadoop 中并行运行 2 个作业。 当我提交作业时,它们按照 FIFO 顺序一项一项地运行。我必…
如何获取 hadoop 中某个键的整数索引?
直观地说,hadoop 正在做类似的事情,使用 python 式的伪代码将密钥分发给映射器。 # data is a dict with many key-value pairs keys = data.keys() …
加入 PIG 对阵 COGROUP
当我在 pig 中使用 COGROUP 而不是 JOIN 时,有什么优势(性能/没有地图减少)吗? http://developer.yahoo.com/hadoop/tutorial/module6.html谈论它…
如何将文件从 S3 复制到 Amazon EMR HDFS?
我正在 EMR 上运行 Hive, 并且需要将一些文件复制到所有EMR实例中。 据我了解,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文…
在 hadoop 中进行集合成员资格测试的最佳方法是什么?
我正在使用 hadoop 处理我的应用程序的一系列分析记录。我想根据我在流中看到的事件对用户进行分类,然后在稍后阶段再次迭代流时使用该信息。例如,假…
Hadoop 中 org.apache.hadoop.mapreduce.Mapper.run() 函数的用途是什么?
Hadoop 中的 org.apache.hadoop.mapreduce.Mapper.run() 函数的用途是什么? setup() 在调用 map() 之前调用,clean() 在 map() 之后调用代码>. run()…
如何使用 hdfs shell 命令检查文件是否存在
我是 hadoop 新手,需要一点帮助。 假设如果我使用 shell 脚本在后台运行该作业,我如何知道该作业是否已完成。我问的原因是,一旦工作完成,我的脚本…
Hive 如何决定何时使用 MapReduce、何时不使用?
举个简单的例子, select * from tablename; 地图缩减不会启动,但 select count(*) from tablename; 会启动。决定何时使用MapReduce(通过Hive)的一…
如何使用 MultipleTextOutputFormat 类将默认输出文件重命名为一些有意义的名称?
在 Hadoop 的归约阶段之后,我希望输出文件名根据输入键值而有意义。然而,我没有成功地遵循“Hadoop:权威指南”上的示例,该示例使用 MultipleTextO…
Hadoop dfs.include 文件
请解释 dfs.include 文件的用途以及如何定义它。 我已向 Hadoop 集群添加了一个新节点,但名称节点未识别该节点。在其中一篇文章中,我发现 dfs.inclu…
为什么我们需要在Hadoop程序中明确设置输出键/值类?
在《Hadoop:权威指南》一书中,有一个示例程序,代码如下。 JobConf conf = new JobConf(MaxTemperature.class); conf.setJobName("Max temperature"…
HDFS在存储时是否对数据进行加密或压缩?
例如,当我将文件放入 HDFS 时, $ ./bin/hadoop/dfs -put /source/file input 文件在存储时是否压缩? 文件在存储时是否加密?是否有一个配置设置可…