为什么elephantbird Pig JsonLoader只处理我的文件的一部分？

发布于 2024-11-03 19:12:17 字数 490 浏览 8 评论 0原文

我在 Amazon 的 Elastic Map-Reduce 上使用 Pig 来进行批量分析。我的输入文件位于 S3 上，包含每行一个 JSON 字典表示的事件。我使用elephantbird JsonLoader 库来解析输入文件。到目前为止，一切都很好。

我在交互式 Pig 会话中处理存储在本地文件系统或 hdfs 上的大文件时遇到问题。看起来，如果输入文件足够大，可以进行分割，则大象鸟只处理其中一个分割，并且处理停止，分割结束时没有错误消息。如果我从 S3 流式传输输入（S3 输入上没有文件分割），或者如果我将文件转换为 Pig 直接可读的格式，我不会遇到同样的问题。

举一个具体的例子：一个有 833,138 行的文件最多只处理 379,751 行（如果我观察 Pig 中的完成百分比，它会顺利地达到 50%，然后跳到 100%）。我还尝试了一个 400,000 行的文件，它处理得很好。

所以我的问题是：为什么大象鸟只处理一个分割？我是否误解了 Pig 在交互模式下的工作原理，或者是否发生了严重错误？

原文

分享到QQ

分享到微博