当前位置：文江博客文章教程详情

Hive 基础 - 使用压缩

发布于 2023-07-17 21:49:24 字数 2352 浏览 33 评论 0

hive 中的数据使用压缩的好处（执行查询时会自动解压）：

可以节约磁盘的空间，基于文本的压缩率可达 40%+;
压缩可以增加吞吐量和性能量（减小载入内存的数据量），但是在压缩和解压过程中会增加 CPU 的开销。所以针对 IO 密集型的 jobs（非计算密集型）可以使用压缩的方式提高性能。

主流的压缩算法

查看集群的支持的压缩算法.

hive -e "set io.compression.codecs"

返回支持的压缩算法

io.compression.codecs=org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.DeflateCodec,
org.apache.hadoop.io.compress.SnappyCodec,
org.apache.hadoop.io.compress.Lz4Codec

常用的压缩算法：

Snappy
Gzip
ZLIB

hive 文件格式

TEXTFILE: 默认格式，数据不做压缩，磁盘开销大。如需压缩，可使用 Gzip、Bzip2 压缩算法，但是不会对数据进行切分;
SEQUENCEFILE: 二进制文件，具有使用方便、可分割、可压缩.SequenceFile支持三种压缩选择：NONE，RECORD（压缩率低），BLOCK（常用且压缩性能最好）;
RCFILE: RCFILE 是一种行列存储相结合的存储方式;
ORCFILE: 0.11 以后出现.

hive 配置压缩

建表时申明文件的存储格式，默认为 TEXTFILE。如使用压缩常使用分块压缩 SEQUENCEFILE。

CREATE TABLE A(
    ...
)
STORED AS SEQUENCEFILE

数据处理的中间过程和结果使用Snappy算法进行压缩。

-- 任务中间压缩
set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;

-- map/reduce 输出压缩
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set mapred.output.compression.type=BLOCK;

压缩测试案例

Hive 原始数据为 119.2G。

压缩算法	TEXTFILE 格式	SEQUENCEFILE	RCFILE	ORCFILE
不压缩	119.2G	54.1G	20.0G	98G
Snappy	30.2G	23.6G	13.6G	27.0G
Gzip	18.8G	14.1G	不支持	15.2 G
ZLIB	不支持	不支持	10.1G	不支持

参考

Hive 编程指南
http://blog.csdn.net/hereiskxm/article/details/42171325

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

Material Design 设计作品UI界面欣赏

Deck.js 基于 jQuery 的 Slideshow 幻灯片插件

director.js 前端 Hash 路由表框架

jQuery.event.move 跟踪触摸和鼠标移动

Parallax.js 功能强大的视觉差特效插件

教你批量获取考拉海购商品的主图、详情页图片并分类保存

简明的 Docker 入门教程

Backgrid.js 基于 Backbone.js 用于构建语义表格组件

上一篇： hadoop 高级 - hadoop 队列管理与资源隔离

下一篇：像使用 Docker 一样丝滑地使用 Containerd

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

暂无简介

文章

评论

26 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

寻找一个思念的角度

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文