使用 PIG 加载文件
我对 PIG 很陌生,我遇到了一个非常基本的问题。 我有一行代码,内容如下: A = load 'Sites/trial_clustering/shortdocs/*' AS (word1:chararray, wo…
JOIN 之后在 FOREACH 中引用列?
A = load 'a.txt' as (id, a1); B = load 'b.txt as (id, b1); C = join A by id, B by id; D = foreach C generate id,a1,b1; dump D; 第 4 行失败:…
使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码?
(甚至比 Pig 和 Hive 之间的区别更基本?为什么两者都有?) 我有一个数据处理管道,是通过 Hadoop 上的几个 Java map-reduce 任务编写的(我自己的自…
如何在 Cloudera 的 Hadoop+Pig 发行版中编译 UDF
我正在运行 Cloudera 的 VM (CH3)。我在文本编辑器中复制了一个简单的 UDF,但我不知道如何编译它以便能够在脚本中调用它。 Pig UDF 手册 http://pig.…
如何“重新分组”?猪的关系?
假设我有一个输入文件 input.dat ,如下所示: apples 10 oranges 30 apples 6 pears 5 现在,当我加载、分组和投影数据时: sources = LOAD 'input.d…
加入 PIG 对阵 COGROUP
当我在 pig 中使用 COGROUP 而不是 JOIN 时,有什么优势(性能/没有地图减少)吗? http://developer.yahoo.com/hadoop/tutorial/module6.html谈论它…
将参数传递给 Pig jython 脚本
我希望在 python 中嵌入一个 pig 脚本,但我需要将一些参数传递给 python 脚本,但它们似乎没有填充下来。 如果我直接调用我的猪脚本,我可以使用: $…
具有多个分隔符的 Pig 加载问题
我有一些数据日志行,例如 Sep 10 12:00:01 10.100.2.28 t: |US,en,5,7350,100,0.076241,0.105342,-1,0,1,5,2,14,,,0,5134,7f378ecef7,fec81ebe-468a-…
是否可以将关系中的一行与 Pig 中该行中的元组交叉连接?
我有一组数据,显示用户、他们喜欢的水果集合以及家乡城市: Alice\tApple:Orange\tSacramento Bob\tApple\tSan Diego Charlie\tApple:Pineapple\tSac…
Apache Pig 权限问题
我正在尝试在我的 Hadoop 集群上启动并运行 Apache Pig,但遇到了权限问题。 Pig 本身可以正常启动并连接到集群 - 在 Pig shell 中,我可以通过我的 H…