apache-pig

apache-pig

文章 4 浏览 64

将 PIG 与 Hadoop 结合使用,如何通过正则表达式将部分文本与未知数量的组进行匹配?

我正在使用亚马逊的弹性地图缩减。 我的日志文件看起来像这样 random text foo="1" more random text foo="2" more text notamatch="5" noise foo="1"…

浅浅 2024-10-09 20:03:12 0 0

微调 PIG 以进行本地执行

我使用 PIG latin 进行日志处理,因为它在数据不够大而无需担心设置整个 hadoop 集群的问题上具有表现力。我在本地模式下运行 PIG,但我认为它没有使…

ζ澈沫 2024-10-08 13:57:12 0 0

从 Pig 获取字段模式的名称

我正在为 Pig 开发 JsonStorage。一切工作正常,但至少我需要从猪模式中获取字段的名称(即 crdate、名称、位置)。 | A | crdate: bytearray | name:…

像极了他 2024-10-07 21:22:43 1 0

将“3”转换为“3”使用 PigLatin 到 3

我读了一个 csv 文件,其中包含带有这样的数字的字段:“3”。 我可以使用 PigLatin 将此字段从“3”转换为 3 吗?我需要它来使用 SUM() - 函数。 感…

找回味觉 2024-10-06 08:23:49 1 0

Hadoop MapReduce - Pig/Cassandra - 无法创建输入拆分

我正在尝试使用 Pig 和 Cassandra 运行 MapReduce 作业,但总是收到错误: 错误2118:无法创建输入拆分:cassandra://constellation/logs [已解决] 我…

请止步禁区 2024-10-03 02:13:11 0 0

使用 Elastic MapReduce (PIG) 处理 CloudFront 日志

我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。 我只需要一些简单的统计数据,了解从 cloudfront 加载不同文件的次数,…

北凤男飞 2024-09-29 23:44:06 0 0

通过 PHP 实现 Pig 的流

我有一个 Pig 脚本(当前在本地模式下运行),它处理一个包含类别列表的巨大文件: /root/level1/level2/level3 /root/level1/level2/level3/level4 .…

甜味拾荒者 2024-09-25 18:06:34 0 0

将 Hive 与 Pig 一起使用

我的配置单元查询有多个外部联接,并且需要很长时间才能执行。我想知道将其分解为多个较小的查询并使用 Pig 来进行转换是否有意义。 有没有办法可以在…

鲜血染红嫁衣 2024-09-25 04:48:30 1 0

在 Hadoop 中将多个文件合并为一个

我将多个小文件放入我的输入目录中,我想将它们合并为一个文件,而不使用本地文件系统或编写 mapreds。有没有办法使用 hadoof fs 命令或 Pig 来做到这…

策马西风 2024-09-15 23:25:15 2 0

Pig Latin:从某个日期范围加载多个文件(目录结构的一部分)

我有以下场景 - Pig 版本使用 0.70 示例 HDFS 目录结构: /user/training/test/20100810/&ltdata files&gt /user/training/test/20100811/&ltdata fil…

暮年慕年 2024-09-15 11:24:13 4 0

如何对大型数据集进行分组

我有一个简单的文本文件,其中包含两列,都是整数 1 5 1 12 2 5 2 341 2 12 等等。 我需要按第二个值对数据集进行分组, 这样输出就会是。 5 1 2 12 1…

ㄖ落Θ余辉 2024-09-13 03:44:14 9 0

通过 Pig 提交 Map/Reduce 作业时捆绑 jar?

我正在尝试将 Hadoop、Pig 和 Cassandra 结合起来,以便能够通过简单的 Pig 查询来处理存储在 Cassandra 中的数据。问题是我无法让 Pig 创建实际与 Ca…

唠甜嗑 2024-09-13 02:24:22 1 0

Pig 和 Hive 之间的区别?为什么两者都有?

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…

伊面 2024-09-11 19:48:13 4 0

从聚合的博客数据中检索信息,该怎么做?

我想知道如何从聚合日志中检索数据?这就是我所拥有的: - 每天大约 30GB 的未压缩日志数据加载到 HDFS(并且很快就会增长到大约 100GB) 这是我的想…

淡墨 2024-09-11 16:20:21 1 0

在另一个关系上使用 FOREACH 时将关系传递给 PIG UDF?

我们正在使用 Pig 0.6 来处理一些数据。我们数据的一列是一个以空格分隔的 id 列表(例如:35 521 225)。我们正在尝试将其中一个 id 映射到另一个包…

┾廆蒐ゝ 2024-09-10 20:29:49 1 0
更多

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文