Observability mit Prometheus, Grafana, Loki, Tempo & Mimir

Kursinhalt

TAG 1

Prometheus & PromQL – Metrics-Grundlagen

Prometheus-Architektur & Installation Pull-basiertes Modell, Scrape-Konfiguration, Retention und Storage, Deployment via Docker und Helm – Lab: erste Prometheus-Instanz

Metrics-Typen Counter, Gauge, Histogram und Summary im Vergleich, Einsatzbereiche und Fallstricke, Naming Conventions und Best Practices

PromQL Grundlagen Selektoren und Label-Matching, Instant- vs. Range-Queries, Operatoren und Verknüpfung von Zeitreihen – Lab: erste Metriken abfragen

PromQL Fortgeschritten Aggregationsfunktionen (sum, avg, topk, histogram_quantile), Funktionen (rate, irate, increase, predict_linear), Subqueries

Exporters & Service Discovery Node Exporter, Blackbox Exporter und weitere, Kubernetes Service Discovery, Relabeling-Regeln und dynamische Targets

TAG 2

Grafana Dashboards & Alerting · Loki & LogQL

Grafana Datenquellen & Panels Prometheus als Datenquelle, Visualisierungstypen (Time Series, Stat, Gauge, Heatmap), Variablen und Templating, Dashboard-Provisioning

Dashboard Best Practices Strukturierung für Operations und Management, USE- und RED-Method umsetzen, Versionierung und Import/Export via JSON/YAML

Unified Alerting in Grafana Alert Rules auf Basis von PromQL, Contact Points (E-Mail, Slack, PagerDuty), Notification Policies, Silence und Mute Timings

Loki-Architektur & Log-Erfassung Label-basierter Index, Chunks und Object Storage, Log-Shipping mit Grafana Alloy – Lab: Anwendungslogs erfassen und strukturieren

LogQL – Log-Aggregation Log-Selektoren und Filter-Expressions, Parsing (JSON, logfmt, regex), Metriken aus Logs (rate, count_over_time), Lab: Fehler-Rate als Metrik

Metriken, Logs & Korrelation Loki als Datenquelle in Grafana, Derived Fields und Log-to-Trace-Links, Korrelation von Metriken und Logs im Dashboard

TAG 3

Tempo (Distributed Tracing) & Mimir (Skalierung für Production)

Distributed Tracing Grundkonzepte Traces, Spans und Kontext-Propagierung, OpenTelemetry als Standard, TraceID-basierte Korrelation mit Logs und Metriken

Grafana Tempo – Architektur & Installation Tempo als kostengünstiges Trace-Backend, Object Storage und Indexing, Deployment via Docker und Helm – Lab: Traces erfassen und speichern

TraceQL & Trace-Visualisierung TraceQL-Abfragen in Grafana, Flamegraphs und Service-Maps, Trace-to-Log- und Trace-to-Metric-Korrelation, Service Graph

Grafana Mimir – Skalierung für Production Mimir als horizontaler Prometheus-Ersatz, Architektur (Distributor, Ingester, Querier, Compactor), Multi-Tenancy und Object Storage

LGTM-Stack im Zusammenspiel Grafana Alloy als universeller Collector, vollständige Observability-Pipeline (Metriken → Mimir, Logs → Loki, Traces → Tempo), Grafana als zentrales Frontend

Betrieb & Praxisprojekt Hochverfügbarkeit, Retention und Kosten, Skalierungsstrategien – Lab: vollständige Observability-Plattform mit einer Beispiel-Anwendung aufbauen

Zielgruppe

DevOps- und Platform-Teams, die eine vollständige Observability-Plattform aufbauen möchten
Entwickler, die Metriken, Logs und Traces ihrer Anwendungen zentral überwachen wollen
SREs und Ops-Engineers, die den LGTM-Stack produktionsreif betreiben möchten

Voraussetzungen

Linux/Terminal-Grundkenntnisse (Kommandozeile)
Docker-Grundkenntnisse
Kubernetes-Grundkenntnisse von Vorteil (für Tag 3)