apache-pig

apache-pig

文章 4 浏览 66

将“3”转换为“3”使用 PigLatin 到 3

我读了一个 csv 文件,其中包含带有这样的数字的字段:“3”。 我可以使用 PigLatin 将此字段从“3”转换为 3 吗?我需要它来使用 SUM() - 函数。 感…

找回味觉 2024-10-06 08:23:49 9 0

Hadoop MapReduce - Pig/Cassandra - 无法创建输入拆分

我正在尝试使用 Pig 和 Cassandra 运行 MapReduce 作业,但总是收到错误: 错误2118:无法创建输入拆分:cassandra://constellation/logs [已解决] 我…

请止步禁区 2024-10-03 02:13:11 8 0

使用 Elastic MapReduce (PIG) 处理 CloudFront 日志

我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。 我只需要一些简单的统计数据,了解从 cloudfront 加载不同文件的次数,…

北凤男飞 2024-09-29 23:44:06 12 0

通过 PHP 实现 Pig 的流

我有一个 Pig 脚本(当前在本地模式下运行),它处理一个包含类别列表的巨大文件: /root/level1/level2/level3 /root/level1/level2/level3/level4 .…

甜味拾荒者 2024-09-25 18:06:34 7 0

将 Hive 与 Pig 一起使用

我的配置单元查询有多个外部联接,并且需要很长时间才能执行。我想知道将其分解为多个较小的查询并使用 Pig 来进行转换是否有意义。 有没有办法可以在…

鲜血染红嫁衣 2024-09-25 04:48:30 7 0

在 Hadoop 中将多个文件合并为一个

我将多个小文件放入我的输入目录中,我想将它们合并为一个文件,而不使用本地文件系统或编写 mapreds。有没有办法使用 hadoof fs 命令或 Pig 来做到这…

策马西风 2024-09-15 23:25:15 8 0

Pig Latin:从某个日期范围加载多个文件(目录结构的一部分)

我有以下场景 - Pig 版本使用 0.70 示例 HDFS 目录结构: /user/training/test/20100810/ /user/training/test/20100811/ /user/training/test/201008…

暮年慕年 2024-09-15 11:24:13 11 0

如何对大型数据集进行分组

我有一个简单的文本文件,其中包含两列,都是整数 1 5 1 12 2 5 2 341 2 12 等等。 我需要按第二个值对数据集进行分组, 这样输出就会是。 5 1 2 12 1…

ㄖ落Θ余辉 2024-09-13 03:44:14 21 0

通过 Pig 提交 Map/Reduce 作业时捆绑 jar?

我正在尝试将 Hadoop、Pig 和 Cassandra 结合起来,以便能够通过简单的 Pig 查询来处理存储在 Cassandra 中的数据。问题是我无法让 Pig 创建实际与 Ca…

唠甜嗑 2024-09-13 02:24:22 8 0

Pig 和 Hive 之间的区别?为什么两者都有?

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…

伊面 2024-09-11 19:48:13 13 0

从聚合的博客数据中检索信息,该怎么做?

我想知道如何从聚合日志中检索数据?这就是我所拥有的: - 每天大约 30GB 的未压缩日志数据加载到 HDFS(并且很快就会增长到大约 100GB) 这是我的想…

淡墨 2024-09-11 16:20:21 7 0

在另一个关系上使用 FOREACH 时将关系传递给 PIG UDF?

我们正在使用 Pig 0.6 来处理一些数据。我们数据的一列是一个以空格分隔的 id 列表(例如:35 521 225)。我们正在尝试将其中一个 id 映射到另一个包…

┾廆蒐ゝ 2024-09-10 20:29:49 7 0

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?

有人可以解释 MapReduce 如何与 Cassandra .6 配合使用吗?我已经阅读了字数统计示例,但我不太明白 Cassandra 端与“客户端”端发生的情况。 https:/…

勿忘初心 2024-08-30 21:00:17 10 0

如何从 Yahoo PigLatin UDF 中将文件加载到 DataBag 中?

我有一个 Pig 程序,我试图计算两个袋子之间的最小中心。为了让它工作,我发现我需要将袋子合并到一个数据集中。整个手术需要很长时间。我想要么从 UD…

坚持沉默 2024-08-30 02:53:01 8 0

使用hadoop进行简单统计计算的示例

我想扩展现有的聚类算法来处理非常大的数据集,并重新设计它,使其现在可以通过数据分区进行计算,这为并行处理打开了大门。我一直在研究 Hadoop 和 P…

乞讨 2024-08-27 14:02:09 8 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文