-包括:HDFS、YARN、HIVE、IMPALA、SPARK、FLUME、KAFKA、ZOOKEEPER和HBASE -每个组件均检查如下项目:关键参数配置、关键运行性能指标、CM中的主要告警、高可用 的配置情况、安全相关配置
关键配置参数与健康度
-企业集群数量,每个集群的总节点数、Master节点数、功能与承载的组件类型
-各组件的软件版本,以及各组件角色在集群中的分布情况
-静态资源分配的配置情况
集群整体情况
——
数据采集与ETL过程
-整体数据流程与整体架构:从FLUME到KAFKA、HDFS、HIVE等
-数据采集与清洗的时延,含各组件的时延及端到端的时延
-数据采集与ETL是否能满足数据完整性的要求:如是否能保证数据不丢失及不重复
紧急故障处理
对响应要求高的提供紧急故障支持
平台或应用导致的集群故障
一般故障处理
集群基础环境、硬件等问题引起的一系列问题处理
环境问题处理