如何在hadoop的新api中设置setMaxMapTaskFailuresPercent?
以前,您可以使用以下命令设置最大失败百分比: JobConf.setMaxMapTaskFailuresPercent(int) 但现在,这已经过时了。 job.getConfiguration().set("ma…
String.getBytes() 和 Bytes.toBytes(字符串数据) 之间的区别
我正在编写 Hadoop/HBase 作业。我需要将 Java String 转换为字节数组。 Java 的 String.getBytes() 和 Hadoop 的 Bytes.toBytes() 之间有什么区别吗…
如何转换 java.lang.Class到 java.lang.class;
请参阅底部的解决方案。 我正在尝试编写一些通用处理代码,但在其中一个子类中,它需要一个更具体的类。 因此,基类作为 Class 类型的字段,在子类中…
如何告诉 hadoop 为单个映射器作业分配多少内存?
我创建了一个 Elastic MapReduce 作业,并且正在尝试优化其性能。 目前我正在尝试增加每个实例的映射器数量。我通过 mapred.tasktracker.map.tasks.ma…
“io.sort.mb”的正确位置是在 Hadoop 中?
我有点困惑,在 Hadoop 集群设置中,在“真实世界集群配置”,给出了一个示例,其中 io.sort.mb 等属性io.sort.factor 位于 core-site.xml 中。但在默…
Hadoop:提交作业后客户端的 CPU 负载较高
在筛选一些 Hadoop 指南时,我找不到问题的答案:我通过客户端计算机上的 shell 脚本一次性提交各种 Hadoop 作业(最多 200 个)。每个作业都通过 JAR…
Hadoop 流示例失败映射中的键类型不匹配
可能的重复: hadoop-streaming 示例无法运行 -地图中的键类型不匹配 中的键类型不匹配而 当我运行 Hadoop 流示例时,它因 Map Hadoop 版本 0.21.0 …
更改 Hadoop 从节点上的默认配置?
目前,我正在尝试通过命令行参数传递一些值,然后使用实现的工具使用 GenericOptionsParser 对其进行解析。 从主节点我运行如下: bin/hadoop jar MYJ…
hadoop:支持MapReduce作业的多个输出
似乎 Hadoop 支持它(参考),但我不知道如何使用它。 我想: a.) Map - Read a huge XML file and load the relevant data and pass on to reduce b.…
如何读/写“二进制”使用 RUBY gem ganapati 从 Hadoop/HDFS 生成文件
我正在使用 Ganapati Ruby gem 从 Hadoop HDFS 集群读取/写入文件,如此处指出的问题 - 如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件? 但这仅适用…
Hive:动态分区添加到外部表
我正在运行 hive 071,处理具有以下目录布局的现有数据: -表名 - d=(例如2011-08-01) -d=2011-08-02 -d=2011-08-03 ...等等 在每个日期下我都有日…
hadoop 0.20中如何设置map任务的数量?
我正在尝试设置要在 hadoop 0.20 环境中运行的映射任务的数量。 我正在使用旧的 api。 以下是我到目前为止尝试过的选项: conf.set("mapred.tasktrack…
在 hadoop 中并行运行作业
我是 hadoop 新手。 我已经设置了一个 2 节点集群。 如何在 hadoop 中并行运行 2 个作业。 当我提交作业时,它们按照 FIFO 顺序一项一项地运行。我必…