如何从 Hadoop Pig 处理的文件中修剪标题行?
我正在尝试通过 Pig 程序使用 Amazon 的 Elastic Map Reduce 来解析由我们的服务生成的制表符分隔的数据文件。一切进展顺利,只是我们所有的数据文件…
Apache Pig:来自网络日志的额外查询参数
我正在分析 AWS CloudFront 访问日志。 我有加载文件行的代码 raw_logs2 =LOAD 'file:///home/ec2-user/ENWRZAC68E00M.2011-02-28-18.72jA8eGh' USING…
导入hadoop/pig中日志的多级目录
我们将日志存储在 S3 中,我们的 (Pig) 查询之一将获取三种不同的日志类型。每个日志类型都位于基于类型/日期的子目录集中。例如: /logs//////lots_o…
使用 Hadoop Pig 生成多个输出
我有这个文件,其中包含 Hadoop 中的数据列表。我构建了一个简单的 Pig 脚本,它通过 id 号 分析文件,依此类推... 我正在寻找的最后一步是这样的:我…
如何读取 PIG UDF 中的静态文件
我是 PIG 和 Hadoop 的新手。我编写了一个 PIG UDF,它对 String 进行操作并返回一个字符串。我实际上使用了一个已经存在的 jar 中的类,其中包含 udf…
如何在 Pig 中解析 JSON?
我在 s3 中有很多经过 gzip 压缩的日志文件,其中有 3 种类型的日志行:b、c、i。 i 和 c 都是单层 json: {"this":"that","test":"4"} 类型 b 是深度…
如果我有一个需要文件路径的构造函数,我如何“伪造”文件路径?如果它被打包到一个罐子里呢?
这个问题的背景是,我正在尝试在我编写的 Pig 脚本中使用 maxmind java api...但是,我认为了解其中任何一个都不需要回答这个问题。 maxmind API 有一…
如何在 Apache Pig 中使用 PigStorage 存储 gzip 压缩文件?
Apache Pig v0.7 可以读取 gzip 压缩文件,而无需我付出额外的努力,例如: MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp,…
我可以在 Apache Pig Latin 中将命令拆分为多行吗?
我有一些很长的行作为 Apache Pig(拉丁语)表达式。有没有办法将它们分成多行? 我尝试了尾部反斜杠但无济于事,只要我按 enter ,(不完整的)命令…
如何“更新”使用猪拉丁语的专栏
假设我有下表: A: { x: int, y: int, z: int, ...99 other columns... } 我现在想要对其进行转换,将 z 设置为 NULL,其中 x > 为 NULL。 y,结果数…
将 PIG 与 Hadoop 结合使用,如何通过正则表达式将部分文本与未知数量的组进行匹配?
我正在使用亚马逊的弹性地图缩减。 我的日志文件看起来像这样 random text foo="1" more random text foo="2" more text notamatch="5" noise foo="1"…
从 Pig 获取字段模式的名称
我正在为 Pig 开发 JsonStorage。一切工作正常,但至少我需要从猪模式中获取字段的名称(即 crdate、名称、位置)。 | A | crdate: bytearray | name:…