apache-pig

apache-pig

文章 4 浏览 66

在 udf 中加载外部属性文件

当编写 UDF 时,比如说 EvalFunc, properties = new Properties(); properties.load(new FileInputStream("conf/config.properties")); 在 Hadoop 模…

心如荒岛 2024-11-08 03:39:57 3 0

了解 WHERE 子句中的 SQL 连接

我有一个 SQL 查询,我正在尝试将其转换为 Pig Latin(用于 Hadoop 集群)。大多数时候,我将查询转移到 Pig 没有问题,但我遇到了一些我似乎无法弄清…

神经大条 2024-11-06 01:56:43 2 0

相当于 linux 'diff'在阿帕奇猪中

我希望能够对两个大文件进行标准差异。我有一些可以工作的东西,但它并不像命令行上的 diff 那么快。 A = load 'A' as (line); B = load 'B' as (line…

烟酒忠诚 2024-11-05 06:57:56 3 0

为什么elephantbird Pig JsonLoader只处理我的文件的一部分?

我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上,包含每行一个 JSON 字典表示的事件。我使用elephantbird Js…

梦在深巷 2024-11-03 19:12:17 4 0

如何处理 Apache Pig 中的空或丢失的输入文件?

我们的工作流程使用 AWS 弹性 MapReduce 集群来运行一系列 Pig 作业,以将大量数据处理为聚合报告。不幸的是,输入数据可能不一致,并可能导致没有输…

月下伊人醉 2024-11-03 04:26:04 5 0

对 Hive 中存储的数据运行 Pig 查询

我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程 http://wiki.apache.org/ hadoop/Hive/压缩存储)。 在…

怪我闹别瞎闹 2024-11-02 22:42:34 4 0

Pig 如何在“负载”中使用 Hadoop Glob?陈述?

正如我之前指出的,Pig 不能很好地处理空(0 字节)文件。不幸的是,有很多方法可以创建这些文件(甚至在 Hadoop 实用程序中)。 我认为我可以通过显…

染年凉城似染瑾 2024-11-02 19:13:10 4 0

Pig 加载文件名复杂的问题

我需要在 Pig 中加载文件,该文件的名称又长又复杂: dealnews-2011-04-01T12:00:00:00.211-02:00.csv Pig 抱怨: ERROR org.apache.pig.tools.grunt.…

洛阳烟雨空心柳 2024-11-02 16:53:59 3 0

strsplit 问题 - Pig

我有以下元组 H1,我想将其 $0 拆分为元组。但是我总是收到错误消息: DUMP H1: (item32;item31;,1) m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);…

ゃ懵逼小萝莉 2024-11-01 23:11:08 2 0

Pig:如何拆分数组

我有一个像这样的元组: ((item114,),1) ((item32,item31,),1) ((item81,item27,),2) 最后一个数字是该项目的频率,所以 item114 有 freq。共 1 个,…

陌生 2024-11-01 10:46:25 3 0

如何从 Pig 中的关系生成自定义模式?

我有一个描述各种文章中单词的 tf-idf 值的模式。 它的描述如下: tfidf_relation: {word: chararray,id: bytearray,tfidf: double} 这是此类数据的示…

烟沫凡尘 2024-11-01 06:59:13 4 0

Hadoop Pig Latin 无法通过 Python 脚本进行流式传输

我有一个简单的 python 脚本(moo.py),我正在尝试流式传输 import sys, os for line in sys.stdin: print 1; ,当我在本地运行此猪脚本(pig -x loc…

丿*梦醉红颜 2024-10-31 21:13:53 5 0

使用 cassandra 的命令行

我如何在 Cassandra PIG 脚本中将值作为命令行参数传递。 下面是执行 PIG 脚本 {apache-cassandra-0.4.0-src path}/contrib/pig/bin/pig_cassandra –…

撩人痒 2024-10-30 17:54:44 4 0

Hadoop PIG 输出未使用 PARALLEL 运算符拆分为多个文件

看来我错过了一些东西。我的数据上的减速器数量在 HDFS 中创建了那么多数量的文件,但我的数据没有分割成多个文件。我注意到,如果我对按顺序排列的键…

绮筵 2024-10-30 15:22:04 6 0

使用 hadoop/pig 从日志中提取相似用户

作为我们的初创产品的一部分,我们需要计算“相似的用户特征”。我们决定选择猪。 我已经学习pig几天了并且了解它是如何工作的。 首先我们来看看日志…

伤痕我心 2024-10-29 14:37:35 4 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文