hadoop 自定义Writables

发布于 2024-10-31 16:24:35 字数 300 浏览 6 评论 0原文

我有更多关于 CustomWritable 对于我的用例的必要性的设计问题：

所以我有一个文档对，我将通过管道进行处理并将中间和最终数据写入 HDFS。我的密钥类似于 ObjectId - DocId - Pair - Lang。我不明白为什么/是否需要一个 CustomWritable 来用于此用例。我想如果我没有钥匙，我需要一个 CustomWritable 吗？另外，当我将数据写入Reducer 中的HDFS 时，我使用自定义分区器。那么，这会消除我对自定义可写的需求吗？

我不确定我是否了解需要自定义可写权限的概念。有人能指出我正确的方向吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

找个人就嫁了吧 2024-11-07 16:24:36

可写对象可用于反/序列化对象。例如，日志条目可以包含时间戳、用户 IP 和浏览器代理。因此，您应该为标识此条目的键实现自己的 WritableComparable，并且应该实现一个值类，该值类实现 Writable，以读取和写入日志条目中的属性。

这些序列化只是将数据从二进制格式获取到对象的便捷方法。一些框架（例如 HBase）仍然需要字节数组来保存数据。因此，您自己传输此数据会产生大量开销，并且会弄乱您的代码。

回复收藏 0 原文

掐死时间 2024-11-07 16:24:36

托马斯的回答解释了一些。虽然已经太晚了，但我想为潜在的读者添加以下内容：

分区器仅在映射和化简阶段之间发挥作用，并且在从化简器到输出文件的写入过程中不起任何作用。

我不认为在大多数情况下需要将中间数据写入 hdfs，尽管可以应用一些技巧来执行相同的操作。

当您从reducer写入hdfs时，键将自动排序，并且每个reducer将写入一个单独的文件。根据其 compareTo 方法，对键进行排序。因此，如果您想基于多个变量进行排序，请选择扩展 WritableComparable 的自定义键类，并实现 write、readFields 和 <代码>compareTo 方法。您现在可以根据 compareTo 实现来控制键的排序方式