Hadoop|HDFS 巡检


HDFS 巡检

  • HDFS 总体状态
    • HDFS 状态
    • HDFS 容量是否过阈值
  • HDFS UI 巡检
    • Summary 巡检
    • NameNode Journal Status
    • Datanode Volume Failures
  • NameNode 巡检
    • NameNode 高可用是否存活
    • NameNode 状态是否正常
    • 编辑日志同步平均时间是否过高
    • RPC 队列长度是否过高、处理时间是否过高
    • JVM 堆栈内存使用情况
    • 主机内存使用情况
      • NameNode 节点主机内存
      • NameNode 主机 CPU
      • NameNode GC
      • NameNode RPC 连接数
    • 磁盘延迟
  • Datanode 巡检
  • 参数巡检 ( 第一次 )

HDFS 为集群提供高可用性弹性存储服务,是集群的存储主体
每天早晚巡检 HDFS 服务 :
  • HDFS 服务可用性
  • 存储使用率
  • DataNode是否有故障盘
HDFS 总体状态 HDFS 状态 红色提示需要关注
Hadoop|HDFS 巡检
文章图片

HDFS 容量是否过阈值 是否超过 75% , 固态硬盘应当空余容量 ( 计算机组成原理 ) , 如果过满 , 固态磁盘损坏过快
Hadoop|HDFS 巡检
文章图片

HDFS UI 巡检 Summary 巡检 Hadoop|HDFS 巡检
文章图片

  1. HDFS 总文件数:HDFS 存储内有多少文件,警告阈值 : 5000W
  2. HDFS 总存储容量: HDFS 总存储容量
  3. 占用存储容量:HDFS 使用了多少存储容量
  4. HDFS 占用比:警戒阈值: 75%,如 : 超过,应立即告知业务清理数据
  5. 平均占用比例:HDFS 各个节点的存储使用均衡情况,如 : 最后一个数字 > 5%,说明 : 存储均衡不正常,需要判断是否有故障节点和执行 balance
  6. 集群内断开节点:集群内与 HDFS 断开连接的节点 ( 故障节点 ) ,可登陆该主机判断故障问题(服务挂掉,系统宕机,硬件故障 )
NameNode Journal Status 事务Id
Hadoop|HDFS 巡检
文章图片

Datanode Volume Failures 坏盘
Hadoop|HDFS 巡检
文章图片

NameNode 巡检 NameNode 高可用是否存活 Hadoop|HDFS 巡检
文章图片

NameNode 状态是否正常 Hadoop|HDFS 巡检
文章图片

编辑日志同步平均时间是否过高 Hadoop|HDFS 巡检
文章图片

RPC 队列长度是否过高、处理时间是否过高 Hadoop|HDFS 巡检
文章图片

JVM 堆栈内存使用情况 Hadoop|HDFS 巡检
文章图片

主机内存使用情况 NameNode 节点主机内存,一般使用 56G 左右,总内存 128G。内存相对充裕
Hadoop|HDFS 巡检
文章图片

NameNode 节点主机内存
NameNode 进程本身的内存,平均使用在 30G,总共分配了 60G。进程内存相对充裕
Hadoop|HDFS 巡检
文章图片

NameNode 主机 CPU
使用率平均在 40%,CPU 资源相对充裕
Hadoop|HDFS 巡检
文章图片

NameNode GC
平均低于 1ms,最大 4.5ms,GC 相对正常
Hadoop|HDFS 巡检
文章图片

NameNode RPC 连接数
平均在 2.5K,最高 5.5K,由于集群较大,并且对 HDFS 访问较多,RPC 会比较高
Hadoop|HDFS 巡检
文章图片

磁盘延迟 Hadoop|HDFS 巡检
文章图片

Datanode 巡检 在 HDFS 界面顶端点击 DataNodes,会出现该集群内所有 DataNode 主机清单
Hadoop|HDFS 巡检
文章图片

包括 DataNode,不包括 NameNode 等其他节点
【Hadoop|HDFS 巡检】Hadoop|HDFS 巡检
文章图片

参数巡检 ( 第一次 )
说明 配置项 目前配置 备注
HDFS 块大小 dfs.block.size 512M 常用的值 : 128M ,如 : 集群中有较多大文件,可考虑增大该值
复制因子 dfs.replication 3 存储充足时,建议设置为 3
NameNode 数据目录 /data/dfs/name 建议配置两个目录 , 两块硬盘,可以提高数据的可用性
NameNode dfs.namenode.handler.count 200 根据集群规模可以适当调大
NameNode 服务处理程序计数 dfs.namenode.service.handler.count 200
NameNode Java 堆栈大小 60G
dfs.namenode.replication.work.multiplier.per.it eration 10
datanode 数据目录 dfs.data.dir , dfs.datanode.data.dir /data/hdfsdsj[01-2 2]/data
datanode 数据目录权限 dfs.datanode.data.dir.perm 755
dfs.datanode.handler.count 3 datanode 处理线程数可以适当调大 , 建议 : 10
最大传输线程 dfs.datanode.max.xcieveRegionServer 65536 设置太大,对 DataNode 的压力较大,建议 : 小点 , 建议 : 8192
datanode 平衡带宽 20M 可以适当调高
datanode 的 Java 堆栈大小 4G 建议 : 8G
JorunalNode 的 Java 堆栈大小 1G 适当提升堆栈大小 , 建议 : 8G

    推荐阅读