当前位置：文江博客话题详情

Pig：更改输出文件NAME的格式

发布于 2024-11-24 14:30:03 字数 436 浏览 6 评论 0原文

我正在运行一个弹性 MapReduce 管道，该管道使用多个 Pig 脚本的输出。本质上，pig 脚本的输出存储在 S3 上的某个位置，由于数据量巨大，因此创建的输出文件被命名为part-xxxxx。

现在我的问题是，管道中的步骤之一是从两个不同位置复制内容并将它们放在一起，然后对整个集合进行处理。现在，由于两个位置中的文件名称相似（part-00000 到part-00342），因此我的文件在复制过程中会被覆盖。

默认情况下，pig 在给定位置生成具有这种文件名格式的输出文件。最初，我常常将 Pig 输出文件下载到我的磁盘上，编写一个 Python 程序来重命名它们，然后将它们上传回 S3。由于数据量巨大，我现在无法做到这一点。

我不拥有实际执行此复制的管道步骤。我所能控制的（也许）只是被复制的文件的名称。所以我需要知道是否有一种方法可以为pig创建的零件文件的名称附加前缀。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

尸血腥色 2024-12-01 14:30:03

我不确定你可以更改 pig 中的前缀。

即使您说过您无法控制它，我绝对认为最好使下游进程有两个输入目录。必须将两个目录复制到一个目录中才能进行下一步，这听起来确实效率很低。

如果确实需要，您可以使用 hadoop 使用流作业进行重命名，其中流命令是“hadoop fs -cp”。如果您还没有见过这种方法，请告诉我，我可以将其写为博客文章，无论如何都是这样的……

垫子

回复收藏 0 原文

鹤仙姿 2024-12-01 14:30:03

您可以使用以下方法对其进行一些更改：

set mapreduce.output.basename 'MyDesiredPrefixName-';   /*  This changes the part-r-0000 to a customized name */

You can change it somewhat using:

set mapreduce.output.basename 'MyDesiredPrefixName-';   /*  This changes the part-r-0000 to a customized name */

回复收藏 0 原文

~没有更多了~

关于作者

九公里浅绿

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

Pig：更改输出文件NAME的格式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚守退让之实

小兔几

mb_3y7WUgWY

友情链接

Pig：更改输出文件NAME的格式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚 守退让之实

小兔几

mb_3y7WUgWY

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

秉忠贞之诚守退让之实