当前位置：文江博客话题详情

如何使用 Hive 对大数据进行高效排序（order by）？

发布于 2024-11-19 21:20:54 字数 459 浏览 5 评论 0原文

我想有效地对大数据集进行排序（即使用自定义分区器，如下所述：MapReduce排序算法是如何工作的？），但我想用hive来实现。

然而，Hive手册指出“order by”是由单个reducer执行的。这让我感到惊讶，因为 Pig 确实实现了与文章类似的东西 - 猪impl

我错过了什么，还是 hive 根本不适合这项工作？

需要登录才能够评论，你可以免费注册一个本站的账号。

墨离汐 2024-11-26 21:20:55

我认为 Hive 不是适合这项工作的工具。至少现在是这样。它被构建为用作 OLAP/报告工具，并且未针对生成大型结果数据集进行优化，因为大多数分析查询生成相对较小的结果集。结果是——他们有很好的 TOP N 能力，但没有很好的总顺序。

以防万一，如果您之前没有遇到过 - 我建议查看 Hadoop 的 terasort 示例，该示例专门旨在使用 MR 以最佳方式对大型数据集进行排序。 http:// /hadoop.apache.org/common/docs/r0.20.1/api/org/apache/hadoop/examples/terasort/package-summary.html