大数据笔记(HDFS-伪分布式模式)

识字粗堪供赋役,不须辛苦慕公卿。这篇文章主要讲述大数据笔记:HDFS-伪分布式模式相关的知识,希望能为你提供帮助。


HDFS集群搭建-伪分布式模式前言【大数据笔记(HDFS-伪分布式模式)】博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有
经典语录:美好的事情不是没有裂痕,而是满是裂痕而没有崩开
一、实操& 理论验证

  • HDFS安装配置
  • HDFS命令行使用
  • 理论知识点验证
二、官网导读??Hadoop - Apache Hadoop 2.6.5
大数据笔记(HDFS-伪分布式模式)

文章图片
https://hadoop.apache.org/docs/r2.6.5/??
  • 支持最好的平台:GNU/Linux
  • 依赖的软件:java,ssh
  • 部署模式:
  1. Local (Standalone) Mode
  2. Pseudo-Distributed Mode
  3. Fully-Distributed Mode
三、思路
  • 基础设施
  • 部署配置
  • 初始化运行
  • 命令行使用
四、基础设施操作系统、环境、网络、必要软件
1、设置IP及主机名
注意:大家看看自己的vm的编辑-> 虚拟网络编辑器-> 观察 NAT模式的地址 
设置网络和设置IP
vi /etc/sysconfig/network-scripts/ifcfg-eth0

大数据笔记(HDFS-伪分布式模式)

文章图片
http://node01:50070??

                 
4、简单使用
hdfs dfs -mkdir /bigdata
hdfs dfs -mkdir-p/user/root


5、验证知识点
观察 editlog的id是不是再fsimage的后边 
cd/var/bigdata/hadoop/local/dfs/name/current


SNN 只需要从NN拷贝最后时点的FSimage和增量的Editlog 
cd /var/bigdata/hadoop/local/dfs/secondary/current


验证上传的大文件是否分块,分块最大文件是否128M 
hdfs dfs -put hadoop*.tar.gz/user/root


cd/var/bigdata/hadoop/local/dfs/data/current/BP-281147636-192.168.150.11-1560691854170/current/finalized/subdir0/subdir0


 
for i in `seq 100000`; doecho "hello hadoop $i"> > data.txt; done
hdfs dfs -D dfs.blocksize=1048576-putdata.txt
cd/var/bigdata/hadoop/local/dfs/data/current/BP-281147636-192.168.150.11-1560691854170/current/finalized/subdir0/subdir0


检查data.txt被切割的块,数据是什么样子的


可以看到两个文件的数据直接切开,一行数据被切成一小段,这样的数据到计算会有问题吗?
其实是不影响的,至于什么原理,会在后面的笔记里详细给大家说明



    推荐阅读