apache-pig

apache-pig

文章 4 浏览 67

使用 PIG 加载文件

我对 PIG 很陌生,我遇到了一个非常基本的问题。 我有一行代码,内容如下: A = load 'Sites/trial_clustering/shortdocs/*' AS (word1:chararray, wo…

蓬勃野心 2024-12-14 18:38:07 9 0

JOIN 之后在 FOREACH 中引用列?

A = load 'a.txt' as (id, a1); B = load 'b.txt as (id, b1); C = join A by id, B by id; D = foreach C generate id,a1,b1; dump D; 第 4 行失败:…

ぃ双果 2024-12-14 16:02:48 3 0

使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码?

(甚至比 Pig 和 Hive 之间的区别更基本?为什么两者都有?) 我有一个数据处理管道,是通过 Hadoop 上的几个 Java map-reduce 任务编写的(我自己的自…

提笔落墨 2024-12-14 06:01:00 4 0

如何在 Cloudera 的 Hadoop+Pig 发行版中编译 UDF

我正在运行 Cloudera 的 VM (CH3)。我在文本编辑器中复制了一个简单的 UDF,但我不知道如何编译它以便能够在脚本中调用它。 Pig UDF 手册 http://pig.…

情话难免假 2024-12-13 22:27:26 6 0

Pig:在 GROUP 之后将各个字段拉出

在 PigLatin 中,我想从由于聚合(例如 MAX)而选择的记录中提取其他字段。 我无法解释这个问题,所以这是一个例子。假设我想获取一个家庭中最年长的…

强辩 2024-12-09 20:54:10 4 0

如何“重新分组”?猪的关系?

假设我有一个输入文件 input.dat ,如下所示: apples 10 oranges 30 apples 6 pears 5 现在,当我加载、分组和投影数据时: sources = LOAD 'input.d…

不即不离 2024-12-07 06:50:14 4 0

加入 PIG 对阵 COGROUP

当我在 pig 中使用 COGROUP 而不是 JOIN 时,有什么优势(性能/没有地图减少)吗? http://developer.yahoo.com/hadoop/tutorial/module6.html谈论它…

此刻的回忆 2024-12-05 13:08:42 4 0

如何在 PIG 中运行独占 SPLIT?

我想知道:由于 PIG 中 SPLIT 关系运算符的默认行为是非排他性地分割关系(即,如果一行符合 2 个或更多关系的条件,它将被放入所有关系中),有没有…

风吹雨成花 2024-12-05 12:18:46 4 0

将参数传递给 Pig jython 脚本

我希望在 python 中嵌入一个 pig 脚本,但我需要将一些参数传递给 python 脚本,但它们似乎没有填充下来。 如果我直接调用我的猪脚本,我可以使用: $…

£冰雨忧蓝° 2024-12-05 06:41:53 5 0

正则表达式匹配 1 2 3 4,5,6

我有一个文件,其行格式如下: 1 2 3 4,5,6 前三行由空格分隔,后三行由逗号分隔。作为示例,我给出了 1-6,但这些值可以是字母数字值。有人可以帮我…

脸赞 2024-12-05 03:11:37 4 0

具有多个分隔符的 Pig 加载问题

我有一些数据日志行,例如 Sep 10 12:00:01 10.100.2.28 t: |US,en,5,7350,100,0.076241,0.105342,-1,0,1,5,2,14,,,0,5134,7f378ecef7,fec81ebe-468a-…

黑凤梨 2024-12-04 14:01:50 6 0

是否可以将关系中的一行与 Pig 中该行中的元组交叉连接?

我有一组数据,显示用户、他们喜欢的水果集合以及家乡城市: Alice\tApple:Orange\tSacramento Bob\tApple\tSan Diego Charlie\tApple:Pineapple\tSac…

黯淡〆 2024-12-04 04:32:20 5 0

如何使用 PIG 加载文件夹中的每个文件?

我有一个每天创建的文件文件夹,所有文件都存储相同类型的信息。我想制作一个脚本来加载最新的 10 个,将它们联合起来,然后在它们上运行一些其他代码…

箜明 2024-12-03 14:05:49 5 0

如何让 Pig 使用 lzo 文件?

因此,我在网上看到了一些教程,但每个教程似乎都说要做不同的事情。另外,它们中的每一个似乎都没有指定您是否正在尝试让事情在远程集群上工作,或者…

本宫微胖 2024-12-02 11:03:48 6 0

Apache Pig 权限问题

我正在尝试在我的 Hadoop 集群上启动并运行 Apache Pig,但遇到了权限问题。 Pig 本身可以正常启动并连接到集群 - 在 Pig shell 中,我可以通过我的 H…

橘味果▽酱 2024-12-01 13:28:27 6 0
更多

推荐作者

琉璃梦幻

文章 0 评论 0

qq_4zWU6L

文章 0 评论 0

话少情深

文章 0 评论 0

彻夜缠绵

文章 0 评论 0

千寻…

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文