30.11.2022
Moritz Lang
Autor: Moritz Lang

Was sind eigentlich Ausreißer?

Ausreisser-Suche mit künstlicher Intelligenz und R

Bestimmt haben Sie schon von dem Begriff (Daten-)Ausreißer gehört. Im Folgenden erkläre ich an einem Beispiel, was damit gemeint ist und wo es sich lohnt, nach solchen zu suchen. 

Wie würden Sie den Schauspieler Danny DeVito beschreiben? 

Wahrscheinlich charakterisieren die meisten den amerikanischen Schauspieler mit seiner auffälligen Körpergröße von 1,47 Meter. Zum Vergleich, der durchschnittliche Amerikaner ist 1,77 Meter groß. Danny DeVito ist, zumindest in Bezug auf seine Körpergröße, auffällig. Er ist statistisch gesehen ein Ausreißer. Als Synonym werden auch die Begriffe Outlier und Anomalie verwendet. 

Ein Ausreißer wird immer anhand von einem oder mehrerer Merkmale bestimmt. In unserem Beispiel war dies bisher ausschließlich die Körpergröße. Diese eindimensionale Betrachtung ist in der Praxis meist nicht ausreichend. Aus diesem Grund berücksichtigen wir nun zudem das Gewicht und das Geschlecht. Folgende Tabelle enthält insgesamt 20 bekannte Personen und jeweils drei Messwerte.

Ausreißer-Suche mit KI-Assistenten DEANO

Ist Ihnen beim Betrachten der Tabelle Brigitte Nielsen als weiterer Ausreißer aufgefallen? 

Bei manuellem Sichten neigt man sehr schnell dazu, jede Spalte einzeln zu betrachten. Vergleicht man die Werte der dänischen Schauspielerin spaltenweise isoliert, ist sie unauffällig: Weder ist eine Person mit 1,85 Meter, 82 kg oder mit weiblichem Geschlecht in der Tabelle unüblich. Erst die Kombination aus Geschlecht und Größe machen Brigitte Nielsen zu einem Outlier. Man spricht hier von einem kombinatorischen Ausreißer. Danny DeVito ist ein globaler Ausreißer, bei ihm ist ein Wert derart extrem ausgeprägt, dass man ihn deshalb bereits als Anomalie wertet. Bei den restlichen Personen in der Tabelle handelt es sich um sogenannte Inlier, also um Zeilen, welche eher die breite Mitte definieren und unauffälliger sind.

Bei nur drei Spalten ist es kombinatorisch schon schwierig, auffällige Zeilen schnell manuell zu identifizieren. Aus diesem Grund haben wir diese Aufgabe mit unserem KI-Assistenten DEAN automatisiert. Der Name ist ein Akronym und setzt sich zusammen aus den Anfangsbuchstaben von „Detecting Anomalies“. Bei der Entwicklung war es uns besonders wichtig, dass der Anwender keinerlei Hinweise, Regeln oder fachspezifische Infos liefern muss. DEAN benötigt lediglich eine Tabelle als Input und liefert dann als Output die identifizierten Ausreißer. Die Spaltenanzahl der Input-Tabelle ist nicht begrenzt, es können beliebig vielen Spalten übergeben werden. Die Implementierung des KI-Assistenten erfolgte in R und kann wie gewohnt innerhalb unserer bestehenden Softwareprodukte aufgerufen werden.

Im SAP-Umfeld können wir unseren KI-Assistenten auf diverse vorab definierte Tabellen anwenden. Diese enthalten Informationen von eingehenden Rechnungen, ausgehende Zahlungen, Einkaufskontrakten, Gutschriften oder Materialbewegungen. 

Möchten Sie in Ihren Daten Ausreißer ohne Regeln mit KI identifizieren? Dann setzen Sie sich gerne mit uns in Verbindung.
 


Kommentare (0)
Sei der erste, der diesen Blog-Beitrag kommentiert.
Blog Anmeldung

Sie sind nicht angemeldet. Bitte melden Sie sich an um diesen Blogbeitrag zu kommentieren.

anmelden