当前位置：文江博客话题详情

将数据从 Apache Pig 存储到 SequenceFile

发布于 2024-08-24 13:01:17 字数 408 浏览 6 评论 0原文

Apache Pig 可以使用 PiggyBank SequenceFileLoader 从 Hadoop 序列文件加载数据：

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;< /code>

定义 SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

是否还有一个库允许从 Pig 写入 Hadoop 序列文件？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冰雪之触 2024-08-31 13:01:17

只需实现一个 StoreFunc 即可实现此目的。

现在这是可能的，尽管一旦 Pig 0.7 发布，它会变得相当容易，因为它包括对加载/存储接口的完全重新设计。

“Hadoop 扩展包” Twitter ~~即将开源~~ 开源于 github，包含用于基于 Google Protocol Buffers 生成加载和存储函数的代码（基于相同的输入/输出格式构建——显然，您已经拥有用于序列文件的那些）。如果您需要如何做一些不那么琐碎的事情的示例，请查看它。但它应该相当简单。

回复收藏 0 原文