29.03.2017

Den Wald trotz lau­ter Bäu­men sehen – Da­ten­ana­ly­se, Vi­sua­li­sie­run­gen und In­ter­pre­ta­tion­en

Dieser Blogpost beschäftigt sich mit den Vorteilen von Visualisierungsmöglichkeiten in Datenanalysetools. Als Beispiel verwenden wir den Web Client von ACL™ Analytics Exchange. Die vorgestellte mögliche Architektur einer entsprechenden Datenanalyselösung ist dabei aber relativ allgemeingültig gehalten und auch für Leser interessant, die noch keine Client/Server-Datenanalyselösung im Einsatz haben.

Manchmal ist Datenanalyse anstrengend. Man sitzt vor einem wahren Berg an Datensätzen und kämpft damit, diese verstehen zu müssen, bis einem die Daten vor den Augen verschwimmen.

Dies ist natürlich keine Eigenheit von Analysetools wie ACL™. Vielleicht kennen Sie auch den liebevollen Ausdruck „Exceltapete“, den Kollegen von mir schon seit jeher für übergroße Excel-Spreadsheets benutzten. Der nächste Screenshot zeigt Einkaufsbelege aus SAP®, die Tabelle umfasst 11.268 Datensätze mit 224 Spalten; ausgedruckt ergäbe das 5050 DIN A4 Seiten.

Datenanalyse Exceltabelle

Exceltabelle mit SAP® Einkaufsbelegen (11.268 Datensätze, 224 Spalten - ausgedruckt 5050 DIN A4 Seiten)

Das ist durchaus repräsentativ: Man hat es im Analysealltag einfach oft mit sehr vielen Daten zu tun, und nicht nur das: Eine weitere Herausforderungen der Datenanalyse ist die Techniklastigkeit vieler Datenanalyse-Werkzeuge. Um Excel im vollen Funktionsumfang nutzen zu können, sollte man das Funktionsportfolio gut kennen, und auch ein Basiswissen in Makroerstellung kommt einem häufig zugute.

Auch ACL™ war hier lange keine Ausnahme. Um Daten zielgerichtet analysieren zu können, brauchte man ein solides Verständnis die ACL™ Oberfläche betreffend, und auch technische Aspekte wie Datentypen, Feldlängen, Primärschlüssel – Fremdschlüsselbeziehungen, relationales Datenmodell, Klassifizieren und Summenstruktur waren unabdingbar, um sich einen Überblick über die Daten zu verschaffen.

Hatte man dann ein Ergebnis produziert, dann war es einem vielleicht auch gelungen, die ursprünglich 3.578.433 Kreditorenposten derart zu filtern und zu verdichten, dass „nur noch“ 10.673 übrig blieben. Solche Ergebnismengen im fünf- bis sechsstelligen Bereich aus der Vogelperspektive zu betrachten und zu profilieren blieb aber immer noch eine Herausforderung.

Mittlerweile gibt es dafür Lösungen, die mittels Visualisierung die Brücke zwischen diesen großen Datenmengen und dem so wichtigen Überblick darüber schlagen. Wie das aussehen kann, zeigen wir am Beispiel der Analysesoftware ACL™.

Wir arbeiten seit dem Jahr 2002 damit, und kennen die Geschichte des Tools gut. Lange Zeit war das Desktopprodukt ACL™ Analytics das Flaggschiff der Datenanalysetools. Eine der Schwächen aus unserer Sicht war dabei wie in der Einleitung beschrieben der Umstand, dass sich der Charme der Analysemöglichkeiten (praktisch keine Datensatzbeschränkung wie bei Excel™, vordefinierte Analysekommandos, Verfahren wie Benford Analysen, Unscharfe Duplikatsanalysen etc.) fast nur Spezialisten und technikaffinen Analysten erschloss.

Paradigmenwechsel und Diversifizierung

In den letzten Jahren fand dann aber ein Paradigmenwechsel statt: Es wurde – nicht nur bei ACL™ - die Notwendigkeit erkannt, dass, wenn man Datenanalyse einem breiteren Personenkreis zugänglich machen will, eine Diversifizierung bei der Nutzung von Datenanalyseergebnissen erfolgen muss. Dies wurde erreicht, indem der Benutzer – und nicht das eigene Tool – in den Vordergrund gestellt wurde. Verschiedene Benutzer haben verschiedene Vorkenntnisse und präferieren vermutlich verschiedene Arbeitsweisen im Umfang mit Daten und Analyseergebnissen. Dies wird mittlerweile als selbstverständlich gesehen und entsprechend in der Architektur der Analyseumgebung berücksichtigt.

Architektur der Lösung

Im Falle von ACL™ sieht die Lösung aus wie in der folgenden Grafik skizziert:

SAP® ERP ECC 6.0

Zum besseren Verständnis: Der AX Web Client (rechts unten in der Architekturgrafik als „Webbrowser“ abgebildet, bietet über den Browser einen Zugriff auf Datenanalyseprojekte, die zentral auf dem Server des (eigenen) Unternehmens gespeichert sind. Diese Projekte sind Sammlungen aus Elementen, z.B.

  • Rohdaten
  • Analyseroutinen
  • Ergebnissen
  • Verbundene Dateien

Bevor wir die 6 Möglichkeiten des Web Clients ausführlicher betrachten, klären wir noch rasch diese vier Begriffe:

Rohdaten:

Diese werden aus einem Quellsystem (z.B. SAP® ERP ECC 6.0) extrahiert und liegen auf dem Analyseserver in Kopie vor. Es könnte sich zum Beispiel um Daten des Lieferantestammes und der Kreditorenbuchhaltung sowie der Einkaufsbelege handeln. In der Architekturgrafik oben wurden diese aus dem Quellsystem links extrahiert und liegen auf dem zentralen Analyseserver vor.

Analyseroutinen:

Das sind vordefinierte Analyse, die – manuell oder automatisiert gestartet – die Rohdaten analysieren und Ergebnisse bereitstellen. Als Beispiele hier könnte man sich eine Doppelzahlungsanalyse vorstellen, die automatisch monatlich basierend auf den Daten der Kreditorenbuchhaltung ausgeführt wird und als Ergebnis eine Liste potentieller Doppelzahlungen bereitstellt. In der Grafik oben befinden sich diese auf dem zentralen Server zusammen mit den Rohdaten.

Ergebnisse:

Durch Filtern oder Verdichten erzeugte Daten, idealerweise geeignet um einen Überblick über einen Datenbestand zu verschaffen oder das Nachvollziehen von Sachverhalten auf Einzelbelegebene zu ermöglichen. Wenn am Beispiel der Doppelzahlungsanalyse das Ziel ist, der Buchhaltung eine Liste von potentiellen Mehrfachbuchungen zur Bearbeitung zur Verfügung zu stellen, steht der Aspekt der Einzeltransaktion im Vordergrund. Hier kommt auch die angesprochene Flexibilität ins Spiel: Die Ergebnisse können auf verschiedene Art und Weise bereitgestellt werden, idealerweise auf die Arbeitsweise des Benutzers zugeschnitten: Technikaffine Benutzer können das ACL™ Desktopanalysetool nutzen, Excel™-Spezialisten ihr geliebtes Microsoft Excel™; die niedrigste Bedienhürde stellt sicher der browserbasierte Zugriff dar. Diese drei Möglichkeiten sind auf der rechten Seite der Grafik angedeutet.

Verbundene Dateien:

Hier kann es sich zum Daten halten, die automatisiert direkt in die Analyselogik einbezogen werden (etwa eine Datei mit internen Lieferanten, die bei der Doppelzahlungsanalyse nicht zu berücksichtigen sind) oder Zusatzinformationen wie Analysedokumentation oder ähnliches Begleitmaterial. Diese habe ich noch der Vollständigkeit aufgeführt – sie wären zentral auf dem Server gespeichert und jeder Benutzer kann sie einsehen bzw. sie sich herunterladen.

Die Datenanalyse der großen Quelldatenmengen erfolgt also zentral auf einem Server, im Idealfall möglichst automatisiert. Ergebnisse werden dann auf verschiedene Art und Weise bereitgestellt, je nach Konzept und Benutzeranforderungen. Wir beschäftigen uns in diesem Blogpost im Schwerpunkt mit der Möglichkeit, browserbasiert mit den Daten zu arbeiten und einfach aber effektiv zu visualisieren. Streng genommen geht es über das reine Erstellen von Grafiken hinaus, aber das erläutern wir später noch ausführlicher.

Möglichkeiten der Datenanalyse über den Web Browser

Nach diesem kleinen Exkurs über die Architektur und die technischen Möglichkeiten, die die zentrale Datenanalyse mit Client/Server Struktur bietet, wenden wir uns nun den Möglichkeiten zu, im Browser mit den Daten zu arbeiten und die Ergebnisse besser interpretieren zu können:

  1. Betrachten von Daten
  2. Filtern und Sortieren
  3. Bedingte Formatierung
  4. Erstellung von Grafiken
  5. Anpassung der Ansicht
  6. Wiederverwendbarkeit der Interpretationen

Die ersten fünf Punkte sind Möglichkeiten, die man ad-hoc auf die Daten anwenden kann. Anschließend erkläre ich unter Punkt 6 den Begriff der „Interpretationen“ in diesem Zusammenhang, der eine Wiederverwendbarkeit der Punkte 1 bis 5 ermöglicht.

Als Beispiel verwende ich die 11.268 Bestellpositionen aus dem einleitenden Excelbeispiel. Diese nimmt die Rolle eines Analyseergebnisses ein, über welches wir uns einen Überblick verschaffen werden.

1. Be­trach­ten von Da­ten

Man kann im Browser sowohl die Rohdaten, als auch die Analyseergebnisse betrachten. Letztere werden versionisiert, d.h. wenn eine Analyse z.B. monatlich ausgeführt wird, kann auch auf Ergebnisse der Vergangenheit über eine Ergebnishistorie zugegriffen werden.

statistische Datenanalyse

Da innerhalb eines Analyselaufes durchaus verschiedene Ergebnisdateien entstehen können, werden diese gelistet und können durch einfaches Anklicken zur Betrachtung geöffnet werden.

Datenanalyse Dateien

Die Datensätze können nun betrachtet werden. Im Falle großer Datenmengen wird dabei nicht die gesamte Tabelle komplett geladen, sondern wird beim Scrollen peu à peu nachgeladen.

2. Fil­tern und Sor­tie­ren

Will man die Tabelle sortieren, reicht dafür ein Klick auf die entsprechende Spalte und die Auswahl der Sortierrichtung. Auch Filter können auf diese Art und Weise gesetzt werden. In unserem Beispiel wurde nach Belegart gefiltert. Der oder die Filter erscheinen dann auf der linken Seite eingeblendet, wo sie auch noch erweitert oder geändert werden können. Bequem ist, dass die Filter sich ganz einfach deaktivieren, oder später auch wieder aktivieren lassen. Im Beispiel wurde noch ein Betragsfilter hinzugefügt, um nur Beträge über 2.500,00 Euro angezeigt zu bekommen.

Datenanalyse sortieren

3. Be­ding­te For­ma­tie­rung

Ein Browser ist eigentlich nicht primär für die Betrachtung großer Datenmengen gedacht, da die Anzeige und Bedienelemente des Browser an sich nicht dafür ausgelegt sind, sondern für das Betrachten von Webseiten, Texten, Bildern und Videos. Das gezielte Suchen nach Informationen kann also anstrengender und etwas „sperriger“ sein, als innerhalb eines vollwertigen Datenanalysetools. Eine Hilfe bietet der ACL™ Web Client insofern, als dass man auf einfache Art und Weise bedingte Formatierungen vornehmen kann. Im Beispiel wurden jene Datensätze hervorgehoben, die in Fremdwährung (USD für US Dollar) getätigt wurden. Trotz der großen Menge an Datensätzen sind diese nun durch die entsprechende Kennzeichnung sofort ersichtlich.

Datenformatierung

4. Er­stel­lung von Gra­fi­ken

Eines der besten Features ist die einfache Erstellung von Visualisierungen. Der ACL™ Web Client bietet eine solide Basis an Grafiktypen, die auf die Daten angewendet werden können. In unserem Fall wurde ein Pie Chart nach Warengruppe erstellt, und eine Aufschlüsselung von Warengruppen pro Lieferant als gestapeltes Balkendiagramm.

ACL Chart

Diese sind auch insofern interaktiv, als dass man durch einfaches Selektieren / Deselektieren der entsprechenden Einträge in der Legende die Grafik dynamisch ändern kann.

Grafiken deselektieren

Als zweites Beispiel wurde ein Histogramm gewählt, welches Einkäufergruppen nach Warengruppen auswertet. Wenn die Aufreihung der Balken nebeneinander zu unübersichtlich wird, lässt sich das Ganze auch dynamisch gestapelt anzeigen.

Histogramm Datenanalyse
Histogramm ACL

Ebenfalls unter den Grafiken gelistet sind Metriken. Diese sind streng genommen keine grafischen Elemente, geben aber guten Überblick über die wichtigsten Eigenschaften eines Feldes, etwa Summe, Durchschnitt, Maximum und Minimum.

Metrik Datenanalyse

Das letzte Beispiel zeigt die Abweichungen im Zeitverlauf als einfaches Liniendiagramm an, auf der x-Achse das Datum angesiedelt und auf der y-Achse die aufsummierte Differenz für diesen Zeitpunkt.

Ansicht Datenanalyse

5. An­pas­sung der An­sicht

Manchmal kann eine Rohdaten- oder Ergebnistabelle viele Spalten enthalten. Falls nicht alle benötigt werden, lassen sich diese ganz einfach in der Ansicht deaktivieren. Auch ein Umsortieren der Reihenfolge ist möglich, so dass die wichtigsten Informationen sofort ersichtlich sind. Unnötiges horizontales Scrollen kann man durch die Anpassung der Ansicht vermeiden, und man hat die benötigten Informationen bestenfalls auf einen Blick vor sich.

6. Wie­der­ver­wend­bar­keit durch In­ter­pre­ta­tion­en

Nun sind die einzelnen Möglichkeiten, die der browserbasierte Zugriff bietet, intuitiv und einfach zu bedienen und trotzdem sehr zielführend. Allerdings ist es natürlich nach wie vor ein gewisser Aufwand, sich zu überlegen, welche Filter, Bedingte Formatierungen, Grafiken, Metriken und Ansichten Sinn ergeben, und diese dann auch umzusetzen. Doch was ist, wenn die Analyse ein weiteres Mal ausgeführt wird (z.B.: eine monatliche Doppelzahlungsanalyse, ein täglicher Analyselauf „Zahlungen in kritische Länder“ oder einfach die Vorbereitung des nächsten Audits für eine andere zu prüfende Einheit? ACL™ fasst die Elemente Filter, Bedingte Formatierungen, Grafiken, Metriken und Ansichten unter dem Begriff „Interpretationen“ zusammen. Diese können gespeichert werden.

Interpretation Datenanalyse

Dies stellt nicht nur sicher, dass sie für die aktuelle Analyse erhalten bleiben, sondern ermöglicht auch eine Anwendung der kompletten gespeicherten Interpretation auf ein neues Analyseergebnis, oder auch auf in der Vergangenheit erzeugte Ergebnisse, sofern natürlich die Struktur etc. identisch ist.

Grafik Analyse
Tabelle Datenanalyse

Fa­zit

Im Gegensatz zu rein lokal installierten Analyselösungen ermöglicht eine Client/Server Architektur, die Daten und Ergebnisse den Benutzern in der für sie am besten geeigneten Form zur Verfügung zu stellen. Ein frischer Ansatz ist dabei der browserbasierte Zugriff auf Daten und Analyseergebnisse. Dieser bietet einfach gehaltene, aber zielführende Möglichkeiten, Ergebnisse zu interpretieren mit Hilfe von Metriken, Grafiken, Bedingter Formatierung, bequemer Filterung der der Anpassung von Ansichten. Die Summe dieser Möglichkeiten lässt sich als Interpretationen wiederverwendbar abspeichern. Der Anspruch ist dabei nicht, Spezialtools wie etwa die Visualisierungssoftware Tableau zu ersetzen, sondern den Prozess der Datenanalyse möglichst ganzheitlich zu unterstützen; von den Quelldaten über die Analysen zu den Detailergebnissen und schließlich Interpretationen. So kann man – trotz möglicherweise großer Datenmengen – der Wald trotz vieler Bäume sehen; oder anders formuliert die richtigen Schlüsse aus seinen Daten ziehen und interessante Sachverhalte identifizieren, ohne sich zu tief mit technischen Aspekten beschäftigen zu müssen.


Kommentare (0)
Sei der erste, der diesen Blog-Beitrag kommentiert.
Blog Anmeldung

Sie sind nicht angemeldet. Bitte melden Sie sich an um diesen Blogbeitrag zu kommentieren.

anmelden