apache-pig

apache-pig

文章 4 浏览 67

Apache Pig 可以从 STDIN 而不是文件加载数据吗?

我想使用 Apache Pig 来转换/连接两个文件中的数据,但我想一步一步地实现它,这意味着,从真实数据中测试它,但尺寸较小(例如 10 行),是否可以使…

平定天下 2025-01-07 21:39:58 0 0

从 Java 应用程序中执行 Pig

是否可以在 Java 应用程序中运行 Apache Pig 作业,而无需分叉外部进程? Pig 和 Hadoop 似乎都是用 Java 编写的,但并不真正提供 Java API。我宁愿在…

寂寞美少年 2025-01-07 14:18:58 0 0

如何使用 Pig 将分组记录存储到多个文件中?

加载和分组记录后,如何将这些分组记录存储到多个文件中,每组一个(=用户ID)? records = LOAD 'input' AS (userid:int, ...); grouped_records = G…

尐籹人 2025-01-06 06:04:11 0 0

如何在 Elastic MapReduce 中将 Python UDF 与 Pig 结合使用?

我真的很想在我们的 AWS Elastic MapReduce 集群上利用 Pig 中的 Python UDF,但我无法让一切正常工作。无论我如何尝试,我的 Pig 作业都会失败,并记…

灵芸 2025-01-06 03:25:07 2 0

如何为 PIG 或 HIVE 中的行添加行号?

我在使用 Apache Pig 添加行号时遇到问题。 问题是我有一个 STR_ID 列,我想为 STR_ID 中的数据添加一个 ROW_NUM 列,即 STR_ID 的行号。 例如,以下…

无法言说的痛 2025-01-05 05:52:18 2 0

使用 Pig Latin 选择不同的计数

我需要关于这个猪脚本的帮助。我只得到一条记录。我选择 2 列并对另一列进行计数(不同),同时还使用 where like 子句来查找特定描述 (desc)。 这是…

oО清风挽发oО 2025-01-04 13:42:38 1 0

投影 Pig 中嵌套关系的所有列

我有一个关系 MY_REL,它是 X 和 Y 连接的结果: MY_REL = {X::x1,X::x2,Y::y1,Y::y2} 我尝试做 Bla = foreach MY_REL generate X; Pig 呕吐: ERROR …

隔纱相望 2025-01-02 18:15:01 1 0

读取 PIG 中的文件,其中 delemeter 包含数据

我想使用 PIG 读取 CSV 文件,我该怎么办?我使用了 load n pigstorage(',') 但它无法正确读取 CSV 文件,因为它在数据中遇到逗号 (,) 时会将其分割。…

看春风乍起 2025-01-02 11:50:03 1 0

猪按查询排序

grunt> dump jn; (k1,k4,10) (k1,k5,15) (k2,k4,9) (k3,k4,16) grunt> jn = group jn by $1; grunt> dump jn; (k4,{(k1,k4,10),(k2,k4,9),(k3,k4,16)}…

撩起发的微风 2025-01-02 06:31:28 1 0

使用 PIG 进行文本解析

我是 PIG 的新手,对此不太了解。我如何解析 PIG 中的文本?要读取字段的值,pig 中有一个位置参数的概念,例如 $0 对应于第一个字段,类似地,是否有…

维持三分热 2025-01-01 01:09:00 1 0

在 PIG 中声明变量和模式

如何在PIG中声明变量?假设我想要一个值为 10 的整数,我如何在脚本中声明它?以及如何重用模式?…

从此见与不见 2024-12-29 20:08:11 1 0

可以使用 PIG 读取的文件格式

使用PIG可以读取哪些类型的文件格式? 如何以不同的格式存储它们?假设我们有 CSV 文件,我想将其存储为 MXL 文件,如何做到这一点?每当我们使用 STO…

夜巴黎 2024-12-28 15:35:56 1 0

Pig 中使用 AvroStorage 的逗号分隔列表

我尝试使用逗号分隔列表在 Pig 中使用 AvroStorage 加载多个文件。我使用的语句是: test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000…

离线来电— 2024-12-28 12:57:27 1 0

提高 Java 正则表达式的性能

我正在寻找一种方法来改进这个正则表达式: ^(?:([^.]+).?){6}_tid 这会提取 point.separated.string.of.当中任意长度的第 6 个字段,直到“_tid” 所…

溇涏 2024-12-28 04:31:31 2 0

PIG 中嵌套元组中的引用字段;

我已经被困在这个问题上几个小时了,我不知道我做错了什么。 我有一个关系“分组”,其模式 grouped: {seedword: chararray,baggy: {outertup: (group…

万劫不复 2024-12-27 04:38:28 2 0
更多

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待"谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文