amazon-emr

amazon-emr

文章 0 浏览 3

在EC2上运行mapreduce作业时如何获取文件名?

我正在学习弹性映射缩减,并从亚马逊教程部分提供的分词器示例开始(代码如下所示)。该示例生成所提供的所有输入文档中所有单词的字数统计。 但我想…

贵在坚持 12-14 09:02 0 0

Boto:如何在完成/失败后保持 EMR 作业流程运行?

如何使用 boto 向正在等待的 Amazon EMR 作业流程添加步骤,而作业流程在完成后不会终止? 我在 Amazon 的 Elastic Map Reduce 上创建了一个交互式作…

污味仙女 12-13 09:03 0 0

为什么hive查询的结果会分成多个文件

我设置了一个 Amazon ElasticMapreduce 作业来运行 hive 查询 CREATE EXTERNAL TABLE output_dailies ( day string, type string, subType string, pr…

白首有我共你 12-12 12:42 1 0

有关 Amazon EMR 上的流式作业流程的问题

我必须使用 Amazon EC2 + S3 + RDS + EMR 制作一个相当复杂的数据处理系统,我有一些一般性问题,希望您能帮助我: 我需要使用 R,然后我必须使用 Str…

橘亓 12-10 15:08 1 0

如何告诉 hadoop 为单个映射器作业分配多少内存?

我创建了一个 Elastic MapReduce 作业,并且正在尝试优化其性能。 目前我正在尝试增加每个实例的映射器数量。我通过 mapred.tasktracker.map.tasks.ma…

勿忘初心 12-06 10:58 2 0

Amazon Elastic MapReduce 上的多个文件作为输入

我正在尝试使用自定义 jar 在 Elastic MapReduce (EMR) 上运行作业。我正在尝试处理单个目录中的大约 1000 个文件。当我使用参数 s3n://bucketname/co…

剑心龙吟 11-25 12:33 0 0

Pig:更改输出文件NAME的格式

我正在运行一个弹性 MapReduce 管道,该管道使用多个 Pig 脚本的输出。本质上,pig 脚本的输出存储在 S3 上的某个位置,由于数据量巨大,因此创建的输…

九公里浅绿 11-24 14:30 3 0

Amazon Elastic Map Reduce:输入片段大小重要吗

鉴于我需要使用 10 个实例处理 20 GB 的输入。 10 个 2Gb 输入文件与 4 个 5Gb 输入文件有何不同? 在后一种情况下,Amazon Elastic MapReduce 是否可…

季末如歌 11-18 21:21 2 0

弹性地图减少外部罐子

因此,直接使用 hadoop 时处理外部 jar 是很容易的。您有 -libjars 选项可以为您完成此操作。问题是如何使用 EMR 来做到这一点。一定有一种简单的方法…

鸩远一方 11-15 09:58 2 0

使用 s3 作为 fs.default.name 还是 HDFS?

我正在 EC2 上设置 Hadoop 集群,我想知道如何进行 DFS。我的所有数据当前都位于 s3 中,并且所有 Map/Reduce 应用程序都使用 s3 文件路径来访问数据…

隱形的亼 11-14 08:36 2 0

通过 boto 获取 Amazon Elastic MapReduce 作业流程中已完成的步骤数

为了避免每次提交作业时设置实例的开销,我使用在每次作业完成后始终处于等待模式的作业流。但是,根据此页面,“最多 256 个步骤每个作业流程中都允…

明明#如月 11-06 11:05 6 0

为什么elephantbird Pig JsonLoader只处理我的文件的一部分?

我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上,包含每行一个 JSON 字典表示的事件。我使用elephantbird Js…

梦在深巷 11-03 19:12 5 0

将大型数据集放到亚马逊弹性地图上减少

我想使用 Amazon EMR 来处理一些大型数据集(25GB 以上,可在 Internet 上下载)。与其将数据集下载到我自己的计算机上,然后将其重新上传到 Amazon …

记忆里有你的影子 11-03 09:57 4 0

如何将 Hadoop Streaming 与 LZO 压缩序列文件一起使用?

我正在尝试使用 Amazon 的 Elastic Map Reduce 来处理 Google ngrams 数据集。 http://aws.amazon.com/datasets/8172056142375670 有一个公共数据集,…

孤云独去闲 10-18 07:49 3 0

在 Hadoop MapReduce 脚本中导入外部库

我正在 Amazon EMR Hadoop 实现之上运行 python MapReduce 脚本。从主脚本中,我得到了项目的相似性。在善后步骤中,我想将此输出拆分到每个项目的单…

揽清风入怀 10-17 03:01 2 0
更多

推荐作者

慕巷

文章 0 评论 0

浅生活

文章 0 评论 0

bal

文章 0 评论 0

lqwuliang

文章 0 评论 0

后来的我们

文章 0 评论 0

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文