监控告警优化需求的思考

目前主要负责监控告警,属于运维开发的范畴。公司有三个以上核心项目,应用服务人数超过万人。运维人员40人左右,总项目几百个,资源分配不均。只能集中力量办大事。
昨天看到一篇文章,客户和用户的区别,当然产品是面向TO C的,但是我认为所有的概念都是可以相互转换的。
客户其实是可以对产品好坏进行评价,具有拍板权,用户是实际使用产品的,可以对产品进行吐槽,可以从侧面影响客户。但有时候不一定管用。
内部的系统也是这样,领导说好就是好,具有拍板权,可以认为是客户,真正使用的可以认为是用户。
下面进入正题:
40个人维护三百个系统,平均下来一个人维护差不多十个业务系统,有点风吹草动,就要改东西,我们支撑的有几个人呢,4个人,如何做?
灵活+自定义,要让用户的所有操作都可以在平台上完成,不要直面用户。就像淘宝购物、餐厅点餐一样,自己不会直面平台的建设人员。
拿餐厅点餐来说,餐厅有套餐,套餐有完全一样的,也有可以按需打菜的;非套餐有现做的,各种面食;
其实个人理解最重要的一点,是有调料、佐料、小料,我觉得这个才是重点,为什么?因为你很少见有人说,厨师我这一碗少放点盐,厨师我这一碗多放点盐,厨师我这一碗多放点醋;
我个人理解原因如下:
1、脸面问题,这种小事当众说出来,会有人觉得你是个事妈,
2、不好验证,多放点盐,少放点盐,你不一定好验证,比如厨师说给你放了,但是你觉得没有,怎么办
3、无关紧要的小事,众口难调,而且餐厅一般配有佐料台,个人可以按量,酌量添加。
综上,餐厅解决这一问题,就是靠着放权,充分发挥用户的主动性,让用户自己搭配,一旦搭配错了,比如放的太咸了,可以回锅处理下。但是用户不能怨别人,只能怨自己手抖盐放多了。
所以做系统应该给用户套餐,最快实现需求;单点,个性化口味,选择多样;佐料,锦上添花;
回到系统上,告警短信的内容,五花八门。我们用到了zabbix、promethus、自建的告警平台、CMDB、短信网关,封装后的zabbix自助平台,还有grafana;
标准:就像餐厅一样,大米、面条、米线、馒头、饼、这是基本元素,
对应起来,主机、网络设备、中间件、数据库;
口味:原味、微辣、中辣,类型,
对应起来,性能告警、关键字告警、宕机告警
【监控告警优化需求的思考】佐料:油盐酱醋
对应起来,自己可以修改阈值,自定义短信模板。
我们这关注的有:
业务、应用、工程、成本中心、机房、一级告警类型、二级告警类型、网元类型;
想办法按照组合套餐进行组合

    推荐阅读