如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒。”
我编写了一个 MapReduce 作业来从数据集中提取一些信息。该数据集是用户对电影的评分。用户数量约25万,电影数量约30万。 map 的输出为 *>和<电影…
带有两个 jar 的 Hadoop Mapreduce(仅在 namenode 上需要其中一个 jar)
mapred 任务是一个由 Java 实现的非常简单的“字数统计”(请参阅 http://wiki.apache。 org/hadoop/WordCount )。 在最后一行之后,“job.waitF…
Mahout/Hadoop:SQL 到 SequenceFile
我开始使用 Mahout 进行集群,但我很难尝试将 sql(mysql) 转储转换为与 Mahout 兼容的 SequenceFile。我正在使用上面的代码。 SQL 示例 (1, 318145, '…
远程执行hadoop作业时出现异常
我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。 Configuration conf = new Configuration() conf.set("fs.default.name", "hdfs:…
从 Hadoop 中的映射器发出矩阵
我是 Hadoop MapReduce 的新手,我想知道有一些输出格式类型可以让我直接从映射器发出矩阵(2D 数组)(无需转换为 1D)。 我计划将其纳入我的 Btech …
为什么elephantbird Pig JsonLoader只处理我的文件的一部分?
我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上,包含每行一个 JSON 字典表示的事件。我使用elephantbird Js…
MapReduce 洗牌/排序方法
有点奇怪的问题,但是有人知道 MapReduce 在 shuffle/sort 的排序部分中使用哪种排序吗?我认为合并或插入(与整个 MapReduce 范例保持一致),但我不…
解释 mahout clusterdumper 的输出
我对爬行页面(超过 25K 文档;个人数据集)进行了聚类测试。 我已经完成了 clusterdump : $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir outpu…
如何防止“hadoop fs rmr”创建 $folder$ 文件?
我们使用 Amazon 的 Elastic Map Reduce 来执行一些大型文件处理作业。作为工作流程的一部分,我们偶尔需要从 S3 中删除可能已存在的文件。我们使用 h…
如何处理 Apache Pig 中的空或丢失的输入文件?
我们的工作流程使用 AWS 弹性 MapReduce 集群来运行一系列 Pig 作业,以将大量数据处理为聚合报告。不幸的是,输入数据可能不一致,并可能导致没有输…
hadoop 流作业在 python 中失败
我正在尝试在 hadoop 中实现一个算法。 我尝试在 hadoop 中执行部分代码,但流作业失败 $ /home/hadoop/hadoop/bin/hadoop jar contrib/streaming/had…
对 Hive 中存储的数据运行 Pig 查询
我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程 http://wiki.apache.org/ hadoop/Hive/压缩存储)。 在…
为什么Hadoop文件系统不支持随机I/O?
Google File System、Hadoop 等分布式文件系统不支持随机 I/O。 (它不能修改以前写入的文件。只能写入和追加。) 为什么他们要这样设计文件系统? 该…