如何“重新分组”?猪的关系?
假设我有一个输入文件 input.dat ,如下所示: apples 10 oranges 30 apples 6 pears 5 现在,当我加载、分组和投影数据时: sources = LOAD 'input.d…
加入 PIG 对阵 COGROUP
当我在 pig 中使用 COGROUP 而不是 JOIN 时,有什么优势(性能/没有地图减少)吗? http://developer.yahoo.com/hadoop/tutorial/module6.html谈论它…
将参数传递给 Pig jython 脚本
我希望在 python 中嵌入一个 pig 脚本,但我需要将一些参数传递给 python 脚本,但它们似乎没有填充下来。 如果我直接调用我的猪脚本,我可以使用: $…
具有多个分隔符的 Pig 加载问题
我有一些数据日志行,例如 Sep 10 12:00:01 10.100.2.28 t: |US,en,5,7350,100,0.076241,0.105342,-1,0,1,5,2,14,,,0,5134,7f378ecef7,fec81ebe-468a-…
是否可以将关系中的一行与 Pig 中该行中的元组交叉连接?
我有一组数据,显示用户、他们喜欢的水果集合以及家乡城市: Alice\tApple:Orange\tSacramento Bob\tApple\tSan Diego Charlie\tApple:Pineapple\tSac…
Apache Pig 权限问题
我正在尝试在我的 Hadoop 集群上启动并运行 Apache Pig,但遇到了权限问题。 Pig 本身可以正常启动并连接到集群 - 在 Pig shell 中,我可以通过我的 H…
在 Apache Pig Latin 中转置数据
我需要“转置”如下所示的数据: id City 111 Chicago 111 New York 111 LA 222 Paris 222 London 222 Tokyo to: 111 Chicago New York LA 222 Paris…
如何使用 Pig 连接到受密码保护的 cassandra
我有一个 cassandra 集群,在 password.properties 文件中设置了用户名和密码,我无法弄清楚如何使用 Pig 的 CassandraStorage 向该集群加载和写入数…
使用loadfunc pig UDF将protobuf格式文件加载到pig脚本中
我对猪的了解很少。我有 protobuf 格式的数据文件。我需要将此文件加载到 Pig 脚本中。我需要编写一个 LoadFunc UDF 来加载它。说函数是Protobufloade…
“创建数据存储失败”将 Pig 与 Hadoop 结合使用时出现错误
我一直在尝试使用 Apache Hadoop 0.20.203.0 运行 Pig 0.9.0。我在谷歌和邮件列表上到处寻找,甚至这个问题: 无法使用单节点hadoop服务器运行pig,但…