当前位置：文江博客话题详情

Hadoop：仅设置一次像 hashSet 这样的变量，以便可以在每个映射任务中多次使用它

发布于 2024-12-28 11:02:05 字数 84 浏览 7 评论 0原文

您好，我有一个 HashSet，需要在 hadoop 中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎任何建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

陌上芳菲 2025-01-04 11:02:05

看来你还没有真正理解Hadoop的执行策略。

如果处于分布式模式，则无法在多个映射任务中共享集合（HashSet）。这是因为任务是在它们自己的 JVM 中执行的，并且它是不确定的，即使没有 jvm 重用，您的集合在 jvm 重置后仍然会在那里。

您可以做的是在计算开始时为每个任务设置一个HashSet。

因此，您可以重写 setup(Context ctx) 方法。这将在调用地图方法之前调用。

但是，您需要足够的内存来存储每个任务中的HashSet。

如果你没有这个能力，你应该考虑分布式缓存解决方案，但这会有开销，因为每个查询都必须序列化和反序列化。并且不能保证数据在本地可用，因此这可能比任务中的收集花费更长的时间。

回复收藏 0 原文

是你 2025-01-04 11:02:05

Map 任务在多个节点上运行，每个节点有多个执行 Map 任务的 JVM。因此，按原样不可能在映射任务之间共享 HashSet。有几种方法可以缓解 OP

Use 任务jvm重用。
使用分布式缓存解决方案。

回复收藏 0 原文

夜声 2025-01-04 11:02:05

如果您将 HaseSet 声明为静态，它将在每个任务中初始化一次
如果您需要在任务之间共享它，您需要一些共享，例如 Praveen 提到的分布式缓存

回复收藏 0 原文

故事还在继续 2025-01-04 11:02:05

问题是你想保存什么？如果是时候初始化该集合 - 那么我建议使用静态变量，如果为空，则该变量将被初始化并且永远不会被清除。因此，碰巧重用同一个 JVM 的每个任务都会使用它。
如果数据相对较小 - 您可以通过配置将其序列化为字符串和路径。
如果数据量很大，可以使用分布式缓存将数据传送到每个节点，然后每个虚拟机读取一次。

回复收藏 0 原文

~没有更多了~