📖 0%

17 Aug 2025 · 5 mnt baca ·Artikel 70 / 110

70. Studi Kasus: Health Check Monitoring via Prometheus

Ihsan Arif

Penulis di Santekno · Backend Engineer

70. Studi Kasus: Health Check Monitoring via Prometheus

Penulis: Bagus Pratama – Senior DevOps Engineer

Salah satu tantangan umum ketika menangani sistem terdistribusi adalah memastikan semua service berjalan baik setiap waktu. Monitoring menjadi wajib, dan “health check” adalah aspek krusial agar kita bisa segera mengetahui jika ada service yang gagal berfungsi. Dalam tulisan kali ini, saya akan membagikan studi kasus implementasi health check monitoring menggunakan Prometheus—dari pengenalan, desain, implementasi hingga simulasi insiden, lengkap dengan contoh kode dan diagram.

Mengapa Prometheus?

Prometheus telah menjadi de-facto standard untuk monitoring dan alerting di banyak perusahaan teknologi. Ia memiliki ekosistem yang besar, integrasi dengan banyak service, dan sangat cocok dipakai untuk time-series monitoring, termasuk memonitor endpoint health check via custom metrics maupun standar metrics.

Studi Kasus: Monitoring “Order API Service”

Bayangkan Anda memiliki sebuah service bernama order-api yang digunakan oleh aplikasi e-commerce untuk menangani proses pesanan. Service ini berjalan pada Kubernetes cluster. Untuk memastikan service tetap sehat, setiap menit Prometheus melakukan scraping terhadap /healthz endpoint dari order-api.

Kita ingin mendapatkan visibilitas sebagai berikut:

Status UP/DOWN health check (biner).
Waktu response health check.
Alert bila health check gagal lebih dari satu kali dalam 5 menit berturut-turut.

Desain High Level

Mari kita visualisasikan alur sistem monitoring ini dengan diagram:

MERMAID

flowchart TD
    subgraph Service Layer
        A[order-api /healthz endpoint]
    end
    subgraph Monitoring Layer
        B[Prometheus Scraper]
        C[Grafana Dashboard]
        D[Alertmanager]
    end
    A -- expose metrics --> B
    B -- store & query --> C
    B -- trigger alert --> D

flowchart TD
    subgraph Service Layer
        A[order-api /healthz endpoint]
    end
    subgraph Monitoring Layer
        B[Prometheus Scraper]
        C[Grafana Dashboard]
        D[Alertmanager]
    end
    A -- expose metrics --&gt; B
    B -- store &amp; query --&gt; C
    B -- trigger alert --&gt; D

Step 1: Menambahkan Health Check Endpoint

Health check bisa sederhana, misalnya pada aplikasi Node.js Express:

 1// app.js (Node.js/Express)
 2const express = require('express');
 3const app = express();
 4
 5app.get('/healthz', (req, res) => {
 6  // Cek dependencies penting (misal: koneksi DB)
 7  let dbHealthy = checkDBConnection();
 8  if(dbHealthy) {
 9      res.status(200).json({ status: 'ok' });
10  } else {
11      res.status(500).json({ status: 'error' });
12  }
13});
14
15// Utility dummy
16function checkDBConnection() {
17  // Simulasi hasil random (sehat atau tidak)
18  return Math.random() > 0.05;
19}

Step 2: Ekspor Health Status sebagai Prometheus Metric

Dengan bantuan library prom-client (untuk Node.js), custom metric bisa ditambahkan:

 1// Monitoring integration
 2const client = require('prom-client');
 3const register = new client.Registry();
 4
 5const healthGauge = new client.Gauge({ 
 6  name: 'orderapi_health_status', 
 7  help: 'Current health check status: 1=UP, 0=DOWN'
 8});
 9register.registerMetric(healthGauge);
10
11app.get('/healthz', async (req, res) => {
12  let status = checkDBConnection() ? 1 : 0;
13  healthGauge.set(status);
14  res.status(status ? 200 : 500).json({ status: status ? 'ok' : 'error' });
15});
16
17app.get('/metrics', async (req, res) => {
18   res.set('Content-Type', register.contentType);
19   res.end(await register.metrics());
20});

Sekarang, endpoint /metrics mengekspos metrik Prometheus berikut:

text

1# HELP orderapi_health_status Current health check status: 1=UP, 0=DOWN
2# TYPE orderapi_health_status gauge
3orderapi_health_status 1

Step 3: Scraping via Prometheus

Tambahkan konfigurasi static job di file prometheus.yml:

yaml

1scrape_configs:
2  - job_name: 'order-api-health'
3    metrics_path: /metrics
4    static_configs:
5      - targets: ['order-api.prod.svc.cluster.local:3000']

Dengan ini, Prometheus akan melakukan scraping /metrics setiap interval (default 15 detik).

Step 4: Membangun Alert di Prometheus

Tambahkan alert rule, misal pada alerts.yml:

yaml

 1groups:
 2- name: order-api.rules
 3  rules:
 4  - alert: OrderAPIHealthDown
 5    expr: orderapi_health_status == 0
 6    for: 5m
 7    labels:
 8      severity: critical
 9    annotations:
10      summary: "Order API Health Check DOWN"
11      description: "order-api tidak healthy selama 5 menit berturut-turut"

Alert ini akan firing jika status health turun (0) selama lebih dari 5 menit.

Step 5: Menampilkan Status di Grafana

Query sederhana di Grafana:

text

1orderapi_health_status

Table di bawah ini adalah simulasi hasil monitoring yang ditampilkan Grafana:

Timestamp	orderapi_health_status	Status
2024-06-21 12:01:00	1	UP
2024-06-21 12:02:00	1	UP
2024-06-21 12:03:00	0	DOWN
2024-06-21 12:04:00	1	UP
2024-06-21 12:05:00	1	UP

Step 6: Simulasi Insiden Health Check DOWN

Untuk menguji ketahanan monitoring & alerting:

Ubah function checkDBConnection() agar selalu false.
Setelah beberapa interval, nilai metric akan turun ke 0.
Alert Prometheus akan firing.
Alertmanager mengirimkan notifikasi ke channel ops (misal Slack/Email).

Diagram sequence response insiden:

MERMAID

sequenceDiagram
    participant Service as order-api
    participant Prometheus
    participant Alertmanager
    participant DevOps

    Service->>Prometheus: Expose metrics (health 0)
    Prometheus->>Prometheus: Evaluate alert rules
    Prometheus->>Alertmanager: Fire alert (OrderAPIHealthDown)
    Alertmanager->>DevOps: Notify via Slack/Email
    DevOps->>Service: Investigasi & recover

sequenceDiagram
    participant Service as order-api
    participant Prometheus
    participant Alertmanager
    participant DevOps

    Service-&gt;&gt;Prometheus: Expose metrics (health 0)
    Prometheus-&gt;&gt;Prometheus: Evaluate alert rules
    Prometheus-&gt;&gt;Alertmanager: Fire alert (OrderAPIHealthDown)
    Alertmanager-&gt;&gt;DevOps: Notify via Slack/Email
    DevOps-&gt;&gt;Service: Investigasi &amp; recover

Observasi dan Best Practice

1. Pilih Health Check yang Tepat

Pastikan health check menyentuh dependensi utama (DB, Redis, Storage, dsb), bukan sekadar return 200 OK tanpa validasi real.

2. Monitoring Response Time

Metrics lain seperti duration health check penting:

1const healthLatency = new client.Gauge({ name: 'orderapi_health_latency', help: 'Health check duration in ms' });
2register.registerMetric(healthLatency);
3
4app.get('/healthz', async (req, res) => {
5  let t0 = Date.now();
6  // (...ceks kesehatan...)
7  healthLatency.set(Date.now() - t0);
8  // ...
9});

3. Recovery Workflow

Alert harus actionable (tidak spammy) dan DevOps wajib punya SOP recovery cepat.

Kesimpulan

Monitoring health check dengan Prometheus bukan sekadar memenuhi “checklist compliance,” tapi merupakan fondasi untuk menjaga reliability di production. Dengan proses ini—dari expose endpoint hingga alerting—tim engineering dapat bereaksi cepat sebelum pelanggan terdampak.

Studi kasus ini hanyalah baseline. Di implementasi nyata, pertimbangkan security endpoint, tuning scrapes, multi-instance, serta alerting yang cerdas (misal, auto-remediation). Semoga sharing ini berguna untuk produksi Anda!

Bagaimana praktik health check monitoring di tim Anda? Sampaikan pendapat di kolom komentar!

70. Studi Kasus: Health Check Monitoring via Prometheus

70. Studi Kasus: Health Check Monitoring via Prometheus

Mengapa Prometheus?

Studi Kasus: Monitoring “Order API Service”

Desain High Level

Step 1: Menambahkan Health Check Endpoint

Step 2: Ekspor Health Status sebagai Prometheus Metric

Step 3: Scraping via Prometheus

Step 4: Membangun Alert di Prometheus

Step 5: Menampilkan Status di Grafana

Step 6: Simulasi Insiden Health Check DOWN

Observasi dan Best Practice

1. Pilih Health Check yang Tepat

2. Monitoring Response Time

3. Recovery Workflow

Kesimpulan

Artikel Terkait

Go 1.23 Rilis: Range over Functions, Iterators, dan Timer Fix

Goroutine dan Channel: Concurrency di Go untuk Pemula

125 Performance Tips untuk gqlgen di Produksi

124 Deployment gqlgen di Railway/Render dengan PostgreSQL

💬 Komentar