将“3”转换为“3”使用 PigLatin 到 3
我读了一个 csv 文件,其中包含带有这样的数字的字段:“3”。 我可以使用 PigLatin 将此字段从“3”转换为 3 吗?我需要它来使用 SUM() - 函数。 感…
Hadoop MapReduce - Pig/Cassandra - 无法创建输入拆分
我正在尝试使用 Pig 和 Cassandra 运行 MapReduce 作业,但总是收到错误: 错误2118:无法创建输入拆分:cassandra://constellation/logs [已解决] 我…
使用 Elastic MapReduce (PIG) 处理 CloudFront 日志
我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。 我只需要一些简单的统计数据,了解从 cloudfront 加载不同文件的次数,…
通过 PHP 实现 Pig 的流
我有一个 Pig 脚本(当前在本地模式下运行),它处理一个包含类别列表的巨大文件: /root/level1/level2/level3 /root/level1/level2/level3/level4 .…
在 Hadoop 中将多个文件合并为一个
我将多个小文件放入我的输入目录中,我想将它们合并为一个文件,而不使用本地文件系统或编写 mapreds。有没有办法使用 hadoof fs 命令或 Pig 来做到这…
Pig Latin:从某个日期范围加载多个文件(目录结构的一部分)
我有以下场景 - Pig 版本使用 0.70 示例 HDFS 目录结构: /user/training/test/20100810/ /user/training/test/20100811/ /user/training/test/201008…
如何对大型数据集进行分组
我有一个简单的文本文件,其中包含两列,都是整数 1 5 1 12 2 5 2 341 2 12 等等。 我需要按第二个值对数据集进行分组, 这样输出就会是。 5 1 2 12 1…
通过 Pig 提交 Map/Reduce 作业时捆绑 jar?
我正在尝试将 Hadoop、Pig 和 Cassandra 结合起来,以便能够通过简单的 Pig 查询来处理存储在 Cassandra 中的数据。问题是我无法让 Pig 创建实际与 Ca…
Pig 和 Hive 之间的区别?为什么两者都有?
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
从聚合的博客数据中检索信息,该怎么做?
我想知道如何从聚合日志中检索数据?这就是我所拥有的: - 每天大约 30GB 的未压缩日志数据加载到 HDFS(并且很快就会增长到大约 100GB) 这是我的想…
在另一个关系上使用 FOREACH 时将关系传递给 PIG UDF?
我们正在使用 Pig 0.6 来处理一些数据。我们数据的一列是一个以空格分隔的 id 列表(例如:35 521 225)。我们正在尝试将其中一个 id 映射到另一个包…
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?
有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗?我已经阅读了字数统计示例,但我不太明白 Cassandra 端与“客户端”端发生的情况。 https:/…
如何从 Yahoo PigLatin UDF 中将文件加载到 DataBag 中?
我有一个 Pig 程序,我试图计算两个袋子之间的最小中心。为了让它工作,我发现我需要将袋子合并到一个数据集中。整个手术需要很长时间。我想要么从 UD…