Hadoop|Hadoop MapReduce Job提交后的交互日志 HadoopMapReduceJob提交后的交互日

通过混合 NamdeNode， DataNode， ResourceManager，NodeManager的日志输出，和提交MapReduce Job的console输出日志，形成时间序列上的日志输出。
【Hadoop|Hadoop MapReduce Job提交后的交互日志】这样可以方便查看从client端提交job，整个hadoop的内部交互的大致过程。
MapReduce Job的console输出来自执行简单编写的例子： bin/hadoop jar hellohadoop-1.0-SNAPSHOT.jar WordCount demo out 后的输出。
HDFS文件中保存job的位置在　/tmp/hadoop-yarn/staging/bruce/.staging/job_1449210909990_0001下。
可以看到文件：
appTokens
job.jar
job.split
job.splitmetainfo
job.xml
job.split和job.splitmetainfo两个文件存储了有关InputSplit的信息。我们知道，Hadoop MapReduce将所有的输入文件划分成一个一个的InputSplit(划分规则由InputFormat的实现类定义)，且为每一个InputSplit，JobTracker将分配一个task交给TaskTracker去执行map。那么，在启动Job之前，首先需要完成文件划分，这个实际上是由Client端来执行。Client完成文件划分后，将划分信息写入job.split和job.splitmetainfo，然后写这两个文件到staging dir。
接下来的问题是，为什么需要有两个文件，它们分别存储了什么样的信息？如下图所示，job.split存储了所有划分出来的InputSplit，而每个InputSplit记录如下信息：
该Split的类型(ClassName, mostly org.apache.hadoop.mapreduce.lib.input.FileSplit)
该Split所属文件的路径(FilePath)
该Split在所属文件中的起始位置(FileOffset)
该Split的字节长度(Length)
job.splitmetainfo存储了有关InputSplit的元数据：
该Split在哪些Node上是local data(Location)
该Split对应的InputSplit在job.split文件中的位置(SplitFileOffset)
该Split的字节长度(Length, the same as that in job.split)

文章图片

job.splitmetainfo提供给JobTracker读取。比如，根据# Split，JobTracker能知道该分配多少个Task；根据Location，JobTracker能决定将该Split对应的Task分配给哪个Node去执行(优先分配到拥有该Split local data的Node)
job.split提供给TaskTracker读取。根据FilePath, FileOffset, Length，TaskTracker知道从哪个文件的哪个位置开始读取要处理的Split data。

Hadoop|Hadoop MapReduce Job提交后的交互日志

推荐阅读

单机经典角色扮演类游戏，好玩的单机游戏角色扮演

卷心菜怎么洗农药卷心菜怎么洗

正睿，正睿nbspI243738WE内存规格怎样

苹果6投屏要怎么设置

雪铁龙天逸缺点赶紧来看看

免费文件夹加密器,文件夹加密器忘记密码怎么办

玉米虫养殖方法，玉米虫人工养殖的方法

vivox21参数,vivox21手机参数

内心的想法怎么会被别人知道如何不被别人知道自已的想法，如何不让别人知道自己的想法

微信小程序新手教程程序文件含义

冒险岛品克缤应该怎么用啊

赛车的防滚架有什么用

2012款福克斯两厢质量怎么样福特福克斯两厢怎么样

法国Cougar MS 40毫米榴弹发射器，现代化的外表包裹着简单的构造

摄影师画像摄影师画匠

荒野行动前10武器排名2020,荒野行动武器大全图解

视频需要配合什么问题，做视频需要准备什么工具

为什么不能养泰迪熊多肉

佳能相机x7 佳能x7i是750d吗

qq群拉好友不用同意直接进群怎么加入qq群