KI-Systeme verstehen und überwachen lernen

Praktische Überwachungstechniken für KI-Performance

Wie das Programm funktioniert

Du lernst in drei aufeinander aufbauenden Phasen, wie man KI-Modelle überwacht, Probleme erkennt und systematisch behebt. Jede Phase kombiniert Theorie mit direkter Anwendung.

Grundlagen der Überwachung

Du lernst die wichtigsten Metriken kennen: Latenz, Durchsatz, Fehlerquoten. Wir schauen uns an, wo Performance-Probleme typischerweise auftreten und wie man sie von echten Modellfehlern unterscheidet.

Werkzeuge und Praxis

Du arbeitest mit echten Monitoring-Tools und lernst, aussagekräftige Dashboards aufzubauen. Wir behandeln Prometheus, Grafana und spezielle KI-Monitoring-Frameworks. Du konfigurierst Alerts für kritische Schwellenwerte.

Probleme lösen

Du übst systematisches Debugging an realen Szenarien: langsame Inferenz, Memory Leaks, verschlechternde Genauigkeit. Wir gehen durch typische Produktionsprobleme und ihre Lösungsansätze.

Wer dich unterrichtet

Björn arbeitet seit sechs Jahren mit Machine Learning in Produktion und hat mehrere große Deployment-Projekte begleitet. Er kennt die typischen Stolpersteine und zeigt dir, worauf es in der Praxis wirklich ankommt.

Annika unterstützt dich bei technischen Fragen und Code-Reviews. Sie hat selbst als Site Reliability Engineer an ML-Infrastruktur gearbeitet und kann dir bei spezifischen Implementierungsfragen helfen.

Björn hat für drei E-Commerce-Plattformen Monitoring-Systeme aufgebaut und dabei die Performance um durchschnittlich 40% verbessert
Annika entwickelte Alerting-Pipelines für ein Fintech-Startup mit über 50.000 täglichen Model-Predictions
Beide unterrichten seit zwei Jahren und haben das Kursmaterial basierend auf echtem Student-Feedback mehrfach überarbeitet

Technologien und Methoden

Wir konzentrieren uns auf Tools, die in echten Produktionsumgebungen verwendet werden. Du lernst nicht nur, wie man sie benutzt, sondern auch, wann welches Tool Sinn macht und wo die Grenzen liegen.

Monitoring-Infrastruktur

Prometheus & Grafana

Standard-Stack für Metriken-Sammlung und Visualisierung. Du lernst, custom metrics zu definieren und aussagekräftige Dashboards zu bauen.

OpenTelemetry

Distributed tracing für komplexe ML-Pipelines. Wichtig, wenn mehrere Modelle zusammenarbeiten oder wenn du Flaschenhälse in der Inferenz finden willst.

MLflow Tracking

Experiment-Tracking und Modell-Registry. Du übst, Modell-Versionen zu vergleichen und Degradation über Zeit zu erkennen.

Praktische Techniken

Data Drift Detection

Statistische Tests, um zu erkennen, wann sich Input-Daten ändern. Wir schauen uns PSI, KL-Divergenz und praktische Schwellenwerte an.

Performance Profiling

Python-Profiler, cProfile, line_profiler für die Analyse von Inferenz-Performance. Du lernst, wo Zeit tatsächlich verloren geht.

Alerting-Strategien

Sinnvolle Schwellenwerte definieren, Alert-Fatigue vermeiden, on-call Rotationen organisieren. Wir behandeln auch, was einen guten Incident-Response-Plan ausmacht.

Toravitelor