KI-Systeme verstehen und überwachen lernen
Jetzt einschreiben
Wie das Programm funktioniert
Du lernst in drei aufeinander aufbauenden Phasen, wie man KI-Modelle überwacht, Probleme erkennt und systematisch behebt. Jede Phase kombiniert Theorie mit direkter Anwendung.
Grundlagen der Überwachung
Du lernst die wichtigsten Metriken kennen: Latenz, Durchsatz, Fehlerquoten. Wir schauen uns an, wo Performance-Probleme typischerweise auftreten und wie man sie von echten Modellfehlern unterscheidet.
Werkzeuge und Praxis
Du arbeitest mit echten Monitoring-Tools und lernst, aussagekräftige Dashboards aufzubauen. Wir behandeln Prometheus, Grafana und spezielle KI-Monitoring-Frameworks. Du konfigurierst Alerts für kritische Schwellenwerte.
Probleme lösen
Du übst systematisches Debugging an realen Szenarien: langsame Inferenz, Memory Leaks, verschlechternde Genauigkeit. Wir gehen durch typische Produktionsprobleme und ihre Lösungsansätze.
Wer dich unterrichtet
Björn arbeitet seit sechs Jahren mit Machine Learning in Produktion und hat mehrere große Deployment-Projekte begleitet. Er kennt die typischen Stolpersteine und zeigt dir, worauf es in der Praxis wirklich ankommt.
Annika unterstützt dich bei technischen Fragen und Code-Reviews. Sie hat selbst als Site Reliability Engineer an ML-Infrastruktur gearbeitet und kann dir bei spezifischen Implementierungsfragen helfen.
- Björn hat für drei E-Commerce-Plattformen Monitoring-Systeme aufgebaut und dabei die Performance um durchschnittlich 40% verbessert
- Annika entwickelte Alerting-Pipelines für ein Fintech-Startup mit über 50.000 täglichen Model-Predictions
- Beide unterrichten seit zwei Jahren und haben das Kursmaterial basierend auf echtem Student-Feedback mehrfach überarbeitet
Technologien und Methoden
Wir konzentrieren uns auf Tools, die in echten Produktionsumgebungen verwendet werden. Du lernst nicht nur, wie man sie benutzt, sondern auch, wann welches Tool Sinn macht und wo die Grenzen liegen.
Monitoring-Infrastruktur
Standard-Stack für Metriken-Sammlung und Visualisierung. Du lernst, custom metrics zu definieren und aussagekräftige Dashboards zu bauen.
Distributed tracing für komplexe ML-Pipelines. Wichtig, wenn mehrere Modelle zusammenarbeiten oder wenn du Flaschenhälse in der Inferenz finden willst.
Experiment-Tracking und Modell-Registry. Du übst, Modell-Versionen zu vergleichen und Degradation über Zeit zu erkennen.
Praktische Techniken
Statistische Tests, um zu erkennen, wann sich Input-Daten ändern. Wir schauen uns PSI, KL-Divergenz und praktische Schwellenwerte an.
Python-Profiler, cProfile, line_profiler für die Analyse von Inferenz-Performance. Du lernst, wo Zeit tatsächlich verloren geht.
Sinnvolle Schwellenwerte definieren, Alert-Fatigue vermeiden, on-call Rotationen organisieren. Wir behandeln auch, was einen guten Incident-Response-Plan ausmacht.