Hive 如何决定何时使用 MapReduce、何时不使用？

发布于 2024-12-05 09:25:14 字数 188 浏览 8 评论 0原文

举个简单的例子，

select * from tablename;

地图缩减不会启动，但

select count(*) from tablename;

会启动。决定何时使用MapReduce（通过Hive）的一般原则是什么？

原文

As a simple example,

select * from tablename;

DOES NOT kick in map reduce, while

select count(*) from tablename;

DOES. What is the general principle used to decide when to use map reduce (by hive)?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夏九 2024-12-12 09:25:14

一般来说，任何类型的聚合，例如最小/最大/计数都需要 MapReduce 作业。这可能无法为您解释一切。

Hive 与许多 RDBMS 的风格一样，有一个 EXPLAIN 关键字它将概述您的 Hive 查询如何转换为 MapReduce 作业。尝试对两个示例查询运行解释，看看它在幕后试图做什么。

回复收藏 0 原文

夏夜暖风 2024-12-12 09:25:14

每当我们触发像 select * from tablename 这样的查询时，Hive 都会读取数据文件并获取整个数据，而不进行任何聚合（最小/最大/计数等）。它将调用 FetchTask 而不是 mapreduce 任务。

这也是Hive中的一种优化技术。 hive.fetch.task.conversion属性可以（即FETCH任务）最小化map-reduce开销的延迟。

这就像我们正在读取一个hadoop文件：hadoop fs -cat filename

但是如果我们使用select colNames from tablename，它需要一个map-减少作业，因为它需要通过从加载的文件中解析每一行来提取“列”。

回复收藏 0 原文

开始看清了 2024-12-12 09:25:14

从表名中选择*；

只需从 HDFS 中的文件中读取原始数据，因此无需 MapReduce 即可更快。

回复收藏 0 原文

柠檬色的秋千 2024-12-12 09:25:14

这是一种优化技术，hive.fetch.task.conversion 属性可以 (FETCH) 任务最小化 MapReduce 开销的延迟。

当执行 SELECT、LIMIT、FETCH 查询时，此属性会跳过 MapReduce 并使用 FETCH 任务。

此属性可以有 3 个值 - none、minimal（默认值）和 more。

回复收藏 0 原文

~没有更多了~

关于作者

影子是时光的心

暂无简介

文章

28 人气

关注发私信

达拉崩吧

文章 0 评论 0

关注

PANGOO

文章 0 评论 0

关注

kkgtx

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

酷炫老祖宗

文章 0 评论 0

关注

硪扪都還晓

文章 0 评论 0

友情链接

文江博客

Hive 如何决定何时使用 MapReduce、何时不使用？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

达拉崩吧

PANGOO

kkgtx

WordPress小学生

酷炫老祖宗

硪扪都還晓

友情链接

Hive 如何决定何时使用 MapReduce、何时不使用？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

达拉崩吧

PANGOO

kkgtx

WordPress小学生

酷炫老祖宗

硪扪都還晓

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。