0%

前置要求

1.安装好hadoop

2.安装好jdk和maven(maven提前配置阿里云连接,不然慢死!)

3.安装前置库

1
yum -y install  lzo-devel  zlib-devel  gcc autoconf automake libtool
阅读全文 »

官方文档:https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html

概述

hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。

Hadoop存档是特殊格式的存档。 Hadoop归档文件映射到文件系统目录。 Hadoop归档文件始终具有* .har扩展名。 Hadoop存档目录包含元数据(以_index和_masterindex的形式)和数据(part- *)文件。 _index文件包含作为归档文件一部分的文件名以及这些文件内的位置。

阅读全文 »

需要util.control.Breaks._类的辅助

实现break与continue功能,都需要util.control.Breaks._类的辅助。不同的是,将整个循环的逻辑放在breakable方法中,在需要真正跳出循环的时候使用break方法,这样达到了跳出整个循环的目的。而continue功能是将breakable放在循环内,这样可以实现结束本次循环的目的而不是结束整个循环。

阅读全文 »

文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。

阅读全文 »