如何使用 Pig 将分组记录存储到多个文件中?
加载和分组记录后,如何将这些分组记录存储到多个文件中,每组一个(=用户ID)?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
我正在使用 Apache Pig 版本 0.8.1-cdh3u3(重新导出)
After loading and grouping records, how can I store those grouped records into several files, one per group (=userid)?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
I'm using Apache Pig version 0.8.1-cdh3u3 (rexported)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
事实上,有一个 MultiStorage 类位于 Piggybank 完全符合我的要求 - 它按指定属性分割记录(在我的示例中位于索引“0”处):
Indeed, there is a MultiStorage class at Piggybank which does exactly what I want - it splits the records by a specified attribute (at index '0' in my example):
参数:
参考:GrepCode
Parameters:
Reference: GrepCode