Apache Pig 可以从 STDIN 而不是文件加载数据吗?
我想使用 Apache Pig 来转换/连接两个文件中的数据,但我想一步一步地实现它,这意味着,从真实数据中测试它,但尺寸较小(例如 10 行),是否可以使…
从 Java 应用程序中执行 Pig
是否可以在 Java 应用程序中运行 Apache Pig 作业,而无需分叉外部进程? Pig 和 Hadoop 似乎都是用 Java 编写的,但并不真正提供 Java API。我宁愿在…
如何使用 Pig 将分组记录存储到多个文件中?
加载和分组记录后,如何将这些分组记录存储到多个文件中,每组一个(=用户ID)? records = LOAD 'input' AS (userid:int, ...); grouped_records = G…
如何在 Elastic MapReduce 中将 Python UDF 与 Pig 结合使用?
我真的很想在我们的 AWS Elastic MapReduce 集群上利用 Pig 中的 Python UDF,但我无法让一切正常工作。无论我如何尝试,我的 Pig 作业都会失败,并记…
如何为 PIG 或 HIVE 中的行添加行号?
我在使用 Apache Pig 添加行号时遇到问题。 问题是我有一个 STR_ID 列,我想为 STR_ID 中的数据添加一个 ROW_NUM 列,即 STR_ID 的行号。 例如,以下…
使用 Pig Latin 选择不同的计数
我需要关于这个猪脚本的帮助。我只得到一条记录。我选择 2 列并对另一列进行计数(不同),同时还使用 where like 子句来查找特定描述 (desc)。 这是…
投影 Pig 中嵌套关系的所有列
我有一个关系 MY_REL,它是 X 和 Y 连接的结果: MY_REL = {X::x1,X::x2,Y::y1,Y::y2} 我尝试做 Bla = foreach MY_REL generate X; Pig 呕吐: ERROR …
读取 PIG 中的文件,其中 delemeter 包含数据
我想使用 PIG 读取 CSV 文件,我该怎么办?我使用了 load n pigstorage(',') 但它无法正确读取 CSV 文件,因为它在数据中遇到逗号 (,) 时会将其分割。…
Pig 中使用 AvroStorage 的逗号分隔列表
我尝试使用逗号分隔列表在 Pig 中使用 AvroStorage 加载多个文件。我使用的语句是: test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000…
提高 Java 正则表达式的性能
我正在寻找一种方法来改进这个正则表达式: ^(?:([^.]+).?){6}_tid 这会提取 point.separated.string.of.当中任意长度的第 6 个字段,直到“_tid” 所…
PIG 中嵌套元组中的引用字段;
我已经被困在这个问题上几个小时了,我不知道我做错了什么。 我有一个关系“分组”,其模式 grouped: {seedword: chararray,baggy: {outertup: (group…