SRE面试题汇总 | Monitoring

1.监控指标类型及应用场景

1、计数器（Counter）：用于记录事件的数量，例如请求次数、错误次数等。

2、计量器（Gauge）：用于记录当前的数值，例如内存使用量、CPU 利用率等。

Histogram和Summary主用用于计算分位数，统计和分析样本的分布情况。

3、直方图（Histogram）：用于记录事件的分布情况，Prometheus 服务端通过 bucket 计算分位数。

1
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

4、摘要（Summary）：

特点：不需要 bucket，代码内自动维护 quantile。无法跨实例计算全局 p99 如果你有 10 个 pod，各自暴露 p99，那么 Prometheus 不能再算“整个服务的 p99”
场景：每个实例都独立的统计需求

Summary 的分位数是在客户端（应用）本地计算的，Prometheus 只需存储最终的 p95、p99 数值。但是不能聚合跨实例的全局分位数。 Histogram在服务端计算分位数，Histogram 能够将多个实例的数据聚合在一起，得出整个服务的全局分位数，是k8s生产环境最常用的方式。