hadoop

hadoop

文章 899 浏览 339

如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒。”

我编写了一个 MapReduce 作业来从数据集中提取一些信息。该数据集是用户对电影的评分。用户数量约25万,电影数量约30万。 map 的输出为 *&gt和&lt电影…

走野 2024-11-04 20:25:49 1 0

带有两个 jar 的 Hadoop Mapreduce(仅在 namenode 上需要其中一个 jar)

mapred 任务是一个由 Java 实现的非常简单的“字数统计”(请参阅​​ http://wiki.apache。 org/hadoop/WordCount )。 在最后一行之后,“job.waitF…

別甾虛僞 2024-11-04 18:32:52 1 0

Mahout/Hadoop:SQL 到 SequenceFile

我开始使用 Mahout 进行集群,但我很难尝试将 sql(mysql) 转储转换为与 Mahout 兼容的 SequenceFile。我正在使用上面的代码。 SQL 示例 (1, 318145, '…

阳光下的泡沫是彩色的 2024-11-04 08:16:53 0 0

远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。 Configuration conf = new Configuration() conf.set("fs.default.name", "hdfs:…

魂归处 2024-11-04 06:50:03 1 0

从 Hadoop 中的映射器发出矩阵

我是 Hadoop MapReduce 的新手,我想知道有一些输出格式类型可以让我直接从映射器发出矩阵(2D 数组)(无需转换为 1D)。 我计划将其纳入我的 Btech …

耳根太软 2024-11-04 02:29:06 1 0

为什么elephantbird Pig JsonLoader只处理我的文件的一部分?

我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上,包含每行一个 JSON 字典表示的事件。我使用elephantbird Js…

梦在深巷 2024-11-03 19:12:17 0 0

MapReduce 洗牌/排序方法

有点奇怪的问题,但是有人知道 MapReduce 在 shuffle/sort 的排序部分中使用哪种排序吗?我认为合并或插入(与整个 MapReduce 范例保持一致),但我不…

愛放△進行李 2024-11-03 15:56:25 1 0

解释 mahout clusterdumper 的输出

我对爬行页面(超过 25K 文档;个人数据集)进行了聚类测试。 我已经完成了 clusterdump : $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir outpu…

冰葑 2024-11-03 15:06:56 1 0

如何防止“hadoop fs rmr”创建 $folder$ 文件?

我们使用 Amazon 的 Elastic Map Reduce 来执行一些大型文件处理作业。作为工作流程的一部分,我们偶尔需要从 S3 中删除可能已存在的文件。我们使用 h…

半枫 2024-11-03 05:01:14 0 0

如何处理 Apache Pig 中的空或丢失的输入文件?

我们的工作流程使用 AWS 弹性 MapReduce 集群来运行一系列 Pig 作业,以将大量数据处理为聚合报告。不幸的是,输入数据可能不一致,并可能导致没有输…

月下伊人醉 2024-11-03 04:26:04 1 0

hadoop 流作业在 python 中失败

我正在尝试在 hadoop 中实现一个算法。 我尝试在 hadoop 中执行部分代码,但流作业失败 $ /home/hadoop/hadoop/bin/hadoop jar contrib/streaming/had…

淡莣 2024-11-03 02:26:42 1 0

对 Hive 中存储的数据运行 Pig 查询

我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程 http://wiki.apache.org/ hadoop/Hive/压缩存储)。 在…

怪我闹别瞎闹 2024-11-02 22:42:34 0 0

想要比较 Hadoop 上的两个连续作业

我想知道是否可以比较 Hadoop 中的两个连续作业。如果没有,如果有人能告诉我如何继续,我将不胜感激。准确地说,我想根据两项工作到底做了什么来比较…

暗地喜欢 2024-11-02 20:44:59 2 0

为什么Hadoop文件系统不支持随机I/O?

Google File System、Hadoop 等分布式文件系统不支持随机 I/O。 (它不能修改以前写入的文件。只能写入和追加。) 为什么他们要这样设计文件系统? 该…

感受沵的脚步 2024-11-02 19:34:56 0 0

有没有像Hadoop那样具有ZFS优点的分布式存储?

有没有像Hadoop一样但又具有ZFS优点的分布式存储?…

太阳男子 2024-11-02 19:27:01 1 0
更多

推荐作者

lorenzathorton8

文章 0 评论 0

Zero

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

mylayout

文章 0 评论 0

tkewei

文章 0 评论 0

17818769742

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文