apache-pig

apache-pig

文章 4 浏览 67

除了 apache.org 教程之外,还有关于 Pig UDF 的任何有用的教程吗?

我花了几个小时来适应,但我想找到一些其他的练习方法。…

青瓷清茶倾城歌 2024-11-14 11:58:29 4 0

是否可以定义我们自己的比较器类以在 Pig 中使用 order by ?

我想使用我自己的比较器类来订购元组。 如果我运行一个查询,比如“ B = ORDER A by $0,$1 ” 然后应该根据我的比较器进行排序。 请回复... 谢谢…

烟凡古楼 2024-11-14 09:34:03 5 0

在 udf 中加载外部属性文件

当编写 UDF 时,比如说 EvalFunc, properties = new Properties(); properties.load(new FileInputStream("conf/config.properties")); 在 Hadoop 模…

心如荒岛 2024-11-08 03:39:57 8 0

了解 WHERE 子句中的 SQL 连接

我有一个 SQL 查询,我正在尝试将其转换为 Pig Latin(用于 Hadoop 集群)。大多数时候,我将查询转移到 Pig 没有问题,但我遇到了一些我似乎无法弄清…

神经大条 2024-11-06 01:56:43 4 0

相当于 linux 'diff'在阿帕奇猪中

我希望能够对两个大文件进行标准差异。我有一些可以工作的东西,但它并不像命令行上的 diff 那么快。 A = load 'A' as (line); B = load 'B' as (line…

烟酒忠诚 2024-11-05 06:57:56 7 0

为什么elephantbird Pig JsonLoader只处理我的文件的一部分?

我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上,包含每行一个 JSON 字典表示的事件。我使用elephantbird Js…

梦在深巷 2024-11-03 19:12:17 8 0

如何处理 Apache Pig 中的空或丢失的输入文件?

我们的工作流程使用 AWS 弹性 MapReduce 集群来运行一系列 Pig 作业,以将大量数据处理为聚合报告。不幸的是,输入数据可能不一致,并可能导致没有输…

月下伊人醉 2024-11-03 04:26:04 8 0

对 Hive 中存储的数据运行 Pig 查询

我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程 http://wiki.apache.org/ hadoop/Hive/压缩存储)。 在…

怪我闹别瞎闹 2024-11-02 22:42:34 5 0

Pig 如何在“负载”中使用 Hadoop Glob?陈述?

正如我之前指出的,Pig 不能很好地处理空(0 字节)文件。不幸的是,有很多方法可以创建这些文件(甚至在 Hadoop 实用程序中)。 我认为我可以通过显…

染年凉城似染瑾 2024-11-02 19:13:10 7 0

Pig 加载文件名复杂的问题

我需要在 Pig 中加载文件,该文件的名称又长又复杂: dealnews-2011-04-01T12:00:00:00.211-02:00.csv Pig 抱怨: ERROR org.apache.pig.tools.grunt.…

洛阳烟雨空心柳 2024-11-02 16:53:59 6 0

strsplit 问题 - Pig

我有以下元组 H1,我想将其 $0 拆分为元组。但是我总是收到错误消息: DUMP H1: (item32;item31;,1) m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);…

ゃ懵逼小萝莉 2024-11-01 23:11:08 5 0

Pig:如何拆分数组

我有一个像这样的元组: ((item114,),1) ((item32,item31,),1) ((item81,item27,),2) 最后一个数字是该项目的频率,所以 item114 有 freq。共 1 个,…

陌生 2024-11-01 10:46:25 6 0

如何从 Pig 中的关系生成自定义模式?

我有一个描述各种文章中单词的 tf-idf 值的模式。 它的描述如下: tfidf_relation: {word: chararray,id: bytearray,tfidf: double} 这是此类数据的示…

烟沫凡尘 2024-11-01 06:59:13 8 0

Hadoop Pig Latin 无法通过 Python 脚本进行流式传输

我有一个简单的 python 脚本(moo.py),我正在尝试流式传输 import sys, os for line in sys.stdin: print 1; ,当我在本地运行此猪脚本(pig -x loc…

丿*梦醉红颜 2024-10-31 21:13:53 10 0

使用 cassandra 的命令行

我如何在 Cassandra PIG 脚本中将值作为命令行参数传递。 下面是执行 PIG 脚本 {apache-cassandra-0.4.0-src path}/contrib/pig/bin/pig_cassandra –…

撩人痒 2024-10-30 17:54:44 9 0
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文