监控衡量指标

监控就4个字(全,少,准,快)

  • 全是该有的监控必须有不能丢;
  • 少是报警量必须少,多了就是狼来了;
  • 准是报出来必须真有问题不能误报;
  • 快是异常可以快速报出来

监控工具

  • 小公司/ 创业团队:< 500台服务器规模,开源方案:Zabbix、Nagios、Cacti
  • 云服务提供商:监控宝、oneAlert等
  • BAT级别:> 10万台服务器,投入人力,内部自研
    • 腾讯蓝鲸:logstash,kafka,storm,Elasticsearch(tsdb)
    • 美团:Spark Streaming,kafka, Elasticsearch
    • 小米(Open-Falcon):自研agent,transfer,Aggregator,judge,graph
    • 百度:logstream,kafka,storm,hbase(tsdb), Elasticsearch

监控体系建设

  • 监控指标的全(覆盖完整) 和 准(准确有效)
  • 报警收敛
  • 监控工具优化

监控标准化

监控标准应该包含什么

  • 规定应该加什么监控
  • 规定应该如何设置报警策略
  • 规定应该如何设置报警通告
  • 规定应该如何定位问题
  • 规定应该如何处理报警

监控如何标准化

  • 制定监控标准
  • 开发自动化监控添加和管理的系统或工具
  • 开发监控工作优劣的评估工具(覆盖度、细致度、正确性等)
  • 例行评估,产出报表和改善建议

下面主要讲解如何保证监控完整性和监控有效性。

results matching ""

    No results matching ""