Anomalieerkennung: Drei Arten, drei Szenarien

Welche Typen von Anomalien gibt es – und wie bestimmen die verfügbaren Daten den Lösungsansatz?

Im ersten Teil dieser Serie haben wir erklärt, was Anomalieerkennung ist und warum sie schwierig ist. In diesem Artikel geht es um zwei Fragen, die vor jeder Umsetzung beantwortet werden müssen: Welche Art von Anomalie suchen wir? Und welche Daten stehen uns zur Verfügung?

Die drei Arten von Anomalien

Die Art der Anomalie bestimmt die Wahl des Algorithmus. Ein Verfahren, das punktuelle Anomalien erkennt, wird kontextuelle oder kollektive Anomalien übersehen – und umgekehrt.

Punktuelle Anomalien

Ein einzelner Wert weicht signifikant von der restlichen Datenmenge ab. Das ist der intuitivste Fall: Ein Datenpunkt liegt weit ausserhalb der normalen Verteilung.

Beispiel: Die Körpertemperatur eines Patienten springt von 37°C auf 41°C. Dieser eine Wert ist eine klare Anomalie – unabhängig vom Kontext.

In der Industrie: Ein Vibrationssensor an einem Motor misst plötzlich eine Amplitude, die dreimal so hoch ist wie der Durchschnitt. Das deutet auf eine akute Störung hin.

Kontextuelle Anomalien

Ein Wert ist nur in einem bestimmten Kontext anormal – im globalen Vergleich aber unauffällig.

Beispiel: Eine Aussentemperatur von 5°C ist im Winter normal. Derselbe Wert im Hochsommer ist eine Anomalie. Der Wert an sich ist nicht aussergewöhnlich – erst der Kontext (Jahreszeit) macht ihn auffällig.

In der Industrie: Eine Produktionsmaschine läuft mit 1'200 Umdrehungen pro Minute – normal bei Volllast, aber anormal im Leerlauf. Der Algorithmus muss den Betriebszustand als Kontext berücksichtigen. Bei der Datenarchitektur für die Fertigung ist es deshalb entscheidend, Kontextinformationen (Schicht, Produkt, Maschinenzustand) zusammen mit den Sensordaten zu erfassen.

Kollektive Anomalien

Einzelne Datenpunkte sind für sich genommen unauffällig. Erst eine Gruppe von Werten in einer bestimmten Abfolge bildet eine Anomalie.

Beispiel: Bei einem EKG ist jeder einzelne Herzschlag normal. Aber eine Sequenz von Schlägen in unregelmässigem Rhythmus deutet auf eine Herzrhythmusstörung hin.

In der Industrie: Die Vibrationen eines Motors liegen alle im normalen Bereich. Aber über einen Zeitraum von 30 Minuten zeigt sich ein schleichendes Muster – eine langsam zunehmende Schwingung, die auf verschleissbedingte Unwucht hindeutet. Für solche Szenarien setzen wir Zeitreihenanalyse ein, oft in Kombination mit Data Pipelines, die Sensordaten in Echtzeit verarbeiten.

Die drei Szenarien der Anomalieerkennung

Neben der Art der Anomalie bestimmt eine zweite Frage den Lösungsansatz: Welche Daten stehen zur Verfügung? Je nach Datenlage unterscheidet man drei Szenarien mit aufsteigendem Schwierigkeitsgrad.

Szenario 1: Überwachte Anomalieerkennung (Supervised)

Voraussetzung: Umfangreiche, gelabelte Daten – sowohl für den Normalzustand als auch für jede Art von Anomalie.

Das ist der einfachste Fall, weil es sich um ein klassisches Klassifizierungsproblem handelt: Der Algorithmus lernt aus Beispielen, was normal ist und was nicht. Bewährte Methoden wie Random Forest, Gradient Boosting oder neuronale Netze kommen zum Einsatz.

Das Problem: Dieser Fall ist selten realistisch. Um für jede denkbare Anomalie ausreichend Trainingsdaten zu haben, müsste man jede Störung reproduzieren – bei einem Flugzeugtriebwerk offensichtlich keine Option.

Szenario 2: Semi-überwachte Anomalieerkennung (Semi-supervised)

Voraussetzung: Daten nur für den Normalzustand. Keine (oder sehr wenige) Daten zu Anomalien.

Das ist der in der Industrie häufigste Fall: Man hat viele Messungen eines korrekt funktionierenden Systems, aber kaum Daten zu Fehlern – weil Fehler selten sind oder weil es zu teuer wäre, sie absichtlich herbeizuführen. Das Triebwerk-Beispiel: In der Testphase wird kein Hersteller absichtlich einen Motor beschädigen, nur um Fehlerdaten zu sammeln.

Der Algorithmus lernt ein Modell des Normalverhaltens und erkennt Abweichungen davon. Die Herausforderung: Das Modell darf nicht zu allgemein werden, sonst werden echte Anomalien als normal eingestuft. Typische Methoden sind Autoencoders, One-Class SVMs und Isolation Forests.

Dieses Szenario ist ein sehr aktiver Forschungsbereich – und genau der Kontext, in dem wir bei der Schadenserkennung mittels Akustiksignalen und der optischen Deformationserkennung arbeiten: Unsere KI-Lösungen basieren auf der Erkennung von Anomalien und benötigen nicht viele Fehlerfälle zum Training.

Szenario 3: Unüberwachte Anomalieerkennung (Unsupervised)

Voraussetzung: Rohdaten ohne jegliche Labels. Es ist nicht bekannt, welche Daten Anomalien sind und welche nicht.

Das ist das schwierigste, aber auch am häufigsten anwendbare Szenario: Man hat einen Datenberg, ohne zu wissen, ob und wo Anomalien enthalten sind. Der Algorithmus basiert auf der Annahme, dass Anomalien deutlich seltener vorkommen als normale Daten – und sucht nach statistischen Ausreissern.

Methoden wie Clustering (DBSCAN, k-Means), Density-based Approaches und Deep-Learning-Ansätze (Variational Autoencoders) kommen hier zum Einsatz. Oft wird das Ergebnis in einem Human-in-the-Loop-Prozess validiert: Die KI schlägt Anomalien vor, ein Fachexperte prüft und bestätigt.

Welches Szenario in der Praxis?

In den meisten industriellen Projekten bei Substring arbeiten wir mit Szenario 2 (semi-überwacht) oder einer Kombination aus Szenario 2 und 3. Der typische Ablauf:

Daten sammeln: Sensordaten, Logdaten, Messwerte aus dem Normalbetrieb – eingebettet in eine saubere Datenarchitektur.
Normalverhalten modellieren: Ein Modell lernt, wie sich das System im Normalzustand verhält.
Abweichungen erkennen: Neue Daten werden gegen das Modell geprüft. Abweichungen werden als potenzielle Anomalien gemeldet.
Validieren: Fachexperten prüfen die Ergebnisse. Ihre Rückmeldungen verbessern das Modell kontinuierlich – genau so, wie wir es bei der LLM-gestützten Felddatenklassifizierung für V-ZUG umgesetzt haben.

Nächster Artikel

Im dritten und letzten Teil dieser Serie zeigen wir konkrete Praxisbeispiele der Anomalieerkennung in der Industrie: Vom Vibrationssensor am Motor bis zur KI-gestützten Bildauswertung.

Kategorie

Kontakt