关于几种压缩算法以及hadoop和hbase中的压缩配置说明[转] 关于几种压缩算法以及hadoop和

2019独角兽企业重金招聘Python工程师标准>>>
文章图片

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

文章不错哇,转载下

Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy，其中lzo、snappy需要操作系统安装native库才可以支持

下面这张表，是比较官方一点的统计，不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的，压缩比最高，GZIP不能被分块并行的处理；Snappy和LZO差不多，稍微胜出一点，cpu消耗的比GZIP少。

通常情况下，想在CPU和IO之间取得平衡的话，用Snappy和lzo比较常见一些。
【关于几种压缩算法以及hadoop和hbase中的压缩配置说明[转]】

Comparison between compression algorithms

Algorithm % remaining Encoding Decoding
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Snappy 22.2% 172 MB/s 409 MB/s
对于数据格式为TextFile，Sequence，以及其他用户自定义的文件格式的文件，都可以采用以上的压缩算法进行压缩；

TextFile在压缩以后，不能split，压缩出来的数据当做job的输入是一个文件作为一个map。SequenceFile本身是分块的，加上lzo的压缩格式，文件可以实现lzo方式的split操作，可以按照record、block进行压缩，一般采用block效率更高一些。

一、hadoop(hive)对mapreduce压缩参数设置
1、mapreduce的中间结果对压缩的支持

方法一：

hadoop 中 mapred-site.xml

mapred.compress.map.output

true

mapred.map.output.compression.codec

com.hadoop.compression.lzo.LzoCodec

方法二

hive中hive-site.xml

hive.exec.compress.intermediate
true
Should the outputs of the maps be compressed before being
sent across the network. Uses SequenceFile compression.

< /property>
< property>
hive.intermediate.compression.codec
org.apache.hadoop.io.compress.LzoCodec
If the map outputs are compressed, how should they be
compressed?

< /property>
方法三
hive中shell
set hive.exec.compress.intermediate=true;

set hive.intermediate.compression.codec="org.apache.hadoop.io.compress.LzoCodec";

2、mapreduce的输出结果对压缩的支持

hive-site.xml中配置：

hive.exec.compress.output
true
Should the job outputs be compressed?

< /property>
< property>
mapred.output.compression.codec
org.apache.hadoop.io.compress.LzoCodec
If the job outputs are compressed, how should they be compressed?

< /property>

或者在hadoop-site.xml中添加：

io.compression.codecs
org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.LzoCodec
A list of the compression codec classes that can be used
for compression/decompression.
< /property>
< property>
mapred.output.compress
true
Should the job outputs be compressed?

< /property>
< property>
mapred.output.compression.codec
org.apache.hadoop.io.compress.LzoCodec
If the job outputs are compressed, how should they be compressed?

< /property>

二、HBASE对这三种压缩格式的支持

HBase中可以对HFile进行gzip、lzo、snappy方式的压缩存储。

1、对于gzip压缩的支持
hbase(main):001:0> create 'testtable', { NAME => 'colfam1',
COMPRESSION => 'GZ' }

或者alter 'testtable'，不过要先disable table，完成压缩后，再enable table

2、对于lzo的支持，需要系统安装lzo动态库，以及hadoop lzo相关的native库，后把native库jar文件copy到hadoop/lib/native 及 hbase/lib/native中
同时在core-site.xml中，配置lzo压缩

io.compression.codecs
org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec

io.compression.codec.lzo.class
com.hadoop.compression.lzo.LzoCodec

org.apache.hadoop.io.compress.DefaultCodec是hadoop默认的zlib压缩

hbase(main):001:0> create 'testtable', { NAME => 'colfam1',
COMPRESSION => 'lzo' }
3、对于synappy的支持，需要安装snappy，并且将 hadoop-snappy-0.0.1-SNAPSHOT.tar.gz 的native中的动态静态链接库文件拷到hadoop以及hbase lib的native下面，将hadoop-snappy-0.0.1-SNAPSHOT.jar考到hadoop 以及hbase 的lib下
在core-site.xml中，配置lzo压缩

io.compression.codecs
org.apache.hadoop.io.compress.SnappyCodec

hbase(main):001:0> create 'testtable', { NAME => 'colfam1',COMPRESSION => 'synappy' }

转载于:https://my.oschina.net/qiangzigege/blog/669654

关于几种压缩算法以及hadoop和hbase中的压缩配置说明[转]

推荐阅读

江西科技学院怎么样

附分数线平潭区2023年第二批五年制高职录取结束

环颈蜥多少钱一只环颈蜥的价格

尿路感染10分钟解决方法

电量百分比苹果13，苹果手机怎么设置电量百分比显示

决战平安京防御塔怎么复活混战狭间2.0新增玩法机制介绍

seo教程培训班 seo免费培训视频

送老婆过生日花卡片写什么送老婆生日卡写什么好

佳能18—200价格是佳能18-200说明书

路尼亚战记，路尼亚战记

赛博朋克2077狙击枪抖动怎么办狙击枪抖动解决办法

家中一定买鞋柜吗英语家中一定买鞋柜吗

厦门医保报销流程:90%的人没搞懂！来了解一下

1000个日常英语单词英语有多少

三伏贴什么时间贴效果最佳

redis精讲 redis综述完整版

iPhone XR如何拍摄动态照片？

佳能百微拍摄技巧佳能百微拍花

苹果手机连接电脑教程

丹东草莓季节是几月份吃