14.03.2019
Ernst-Rudolf Töller
Autor: Ernst-Rudolf Töller

Frei-schwimmen im „Data Lake“

„Data Lake“, mehr als ein neues Buzzwort?! 
Die Datenanalyse soll in Zukunft die unterschiedlichen Datenquellen eines Unternehmens umfassender nutzen. Die eigenen Datenquellen sollen gemeinsam mit öffentlich zugänglichen Daten als ein großes Ganzes betrachtet werden als sog. „Data Lake“.

Dazu Gartner: A data lake is a collection of storage instances of various data assets additional to the originating data sources. These assets are stored in a near-exact, or even exact, copy of the source format. The purpose of a data lake is to present an unrefined view of data to only the most highly skilled analysts, to help them explore their data refinement and analysis techniques independent of any of the system-of-record compromises that may exist in a traditional analytic data store (such as a data mart or data warehouse). (vgl. www.gartner.com/it-glossary/data-lake)

Das Konzept des „Data Lake“ erscheint auf den ersten Blick faszinierend, gleichwohl ergeben sich bei näherem Hinsehen erhebliche Fragen. Hier eine kleine Auswahl (ohne Anspruch auf Vollständigkeit):

  • Umfassende und konsistente Metadaten
    Für alle beteiligten Sourcen müssen ausreichende und zueinander passende Metadaten vorliegen. Das schließt auch eine umfassende Kenntnis der Semantik der Daten mit ein. Bereits grundlegende Begriffe wie ‚Kontoʼ, ‚Transaktion‘ usw. haben in verschiedenen Systemen nicht automatisch die gleiche Bedeutung.
  • Verbindung zwischen ‚fremden‘ Datenquellen
    Verbindungen zwischen den Tabellen einer Datenbank sind durch die Datenstruktur vorgegeben. Darüber hinaus geht es hier aber auch um Verknüpfungen zwischen ganz unterschiedlichen ggf. heterogenen Datenquellen. Solche Verbindungen sind aber schon deshalb nicht einfach möglich, weil z.B. externe Datenquellen keine Schlüssel enthalten, die zu den typischen Schlüsselattribute wie ‚Kundennummer‘, ‚Lieferantennummer‘ usw. aus den eigenen Datenbanken passen.
  • Aktualität und Qualität der verschiedenen Quellen
    Unterschiedliche Datenquellen sind ggf. in ihrer Aktualität problematisch bzw. auch hinsichtlich der Qualität der Daten sehr verschieden. Das in der Datenanalyse ohnehin immer präsente Thema der Datenqualität muss für jede beteiligte Datenquelle geklärt werden. Die Frage nach der Aktualität der beteiligten Datenquellen ist für die Datenanalyse von ganz besonderer Bedeutung. Hier geht es auch darum ‚False Positives‘‚ zu vermeiden. Gerade solche Fälle können aber daraus resultieren, dass verschiedene Datenquellen unterschiedlich aktualisiert sind.
  • Systemtechnik: große Datenmengen, heterogene Datenstrukturen und - formate
    Die von Gartner vorgeschlagene Definition eines Data-Lake spricht von Kopien der verschiedenen Datenquellen, die auf einer eigenen Plattform zusammengeführt werden. Dazu müssen auch systemtechnische Voraussetzungen geschaffen werden. Die Anforderungen an die eingesetzte Technik können erheblich sein abhängig von den Datenmengen und den Zyklen der Aktualisierung der diversen Quellen.

In vielen Unternehmen gibt es ein Umdenken hin zu neuen digitalen ggf. auch unternehmensübergreifenden Geschäftsmodellen. Dieses Umdenken bedeutet auch eine neue Sicht auf die Daten des Unternehmens

  • die eigenen IT-Systeme sind nur Teil einer umfassenderen System- und Datenlandschaft.
  • nicht nur die eigenen Systeme sollen als Informationsquelle für das Unternehmen genutzt werden.
  • zusätzliche Datenquellen sollen angebunden werden, ohne dass dabei Daten in die eigenen Systeme übernommen werden.

Die Idee des Data-Lake korrespondiert mit diesem Paradigmenwechsel in der IT. „Alles hängt mit allem zusammen”, das ist natürlich so, sagt aber über die wirklich interessanten Zusammenhänge im Einzelnen gar nichts aus. Will man neue Konzepte zur unternehmensübergreifenden Verbindung von Daten erfolgreich umsetzen, braucht es neue tiefergehende Lösungsansätze. Im folgenden wollen wir zeigen, was die Verwendung von Datenderivaten anstelle von herkömmlichen Datenattributen hier beitragen kann.

Datenderivate und Datenattribute

Heutige ERP-Systeme speichern Information in einer Vielzahl von Tabellen und Datenattributen. Ist noch die Bedeutung der einzelnen Tabellen und Attribute anhand der Dokumentation der Systeme möglich, wird die Übersicht über die wichtigsten Konstellationen der Ausprägungen von zwei und mehr Attributen schon wesentlich schwieriger. (Dies liegt auch daran, dass die Anzahl der möglichen Ausprägungen einer größeren Gruppe von Attributen astronomische Größenordnungen annehmen kann!) Diese Situation wird durch die Verwendung weiterer Datenquellen natürlich nicht einfacher.
Geeignete Datenderivate fassen dagegen Gruppen von Datenattributen automatisiert zusammen. Dabei können auch Abhängigkeiten zwischen den einzelnen Ausprägungen von Attributen berücksichtigt werden. Derivate können auch aggregiert bzgl. einer ganzen Gruppe von Datensätzen gebildet werden, z.B. aus allen Belegen zu einem Konto.

Verbinden, was zusammen gehört

Die Grenzen der eigenen Daten sind für Unternehmen natürlich nicht die Grenzen der Welt, vielfach bilden sie aber eine spürbare Schwelle für neue digitale Geschäftsprozesse. Die Überwindung solcher Schwellen wird in Zeiten der Digitalisierung natürlich immer wichtiger. Die manuelle Übernahme von immer mehr Daten in die eigenen Systeme ist hier aus Zeit- und Kostengründen oft keine Alternative. Die Verwendung von Datenderivate eröffnet hier ganz neue Möglichkeiten. Sie können zur Verbindung von Daten genutzt werden, die nicht über herkömmliche Schlüsselbeziehungen miteinander verbunden sind.

So entsteht eine Sicht auf Daten, die die Idee des Data-Lake ein Stück weit Wirklichkeit werden lässt:

  • Datenattribute werden nicht mehr einzeln betrachtet, sondern als ein neues Ganzes auch in ihren Verbindungen zueinander sichtbar gemacht
  • Verbindungen zwischen Daten sind nicht mehr auf die Verwendung zentraler Schlüsselattribute wie ‚Materialnummer, Kundennummer‘ usw. beschränkt.

Gerne zeigen wir Ihnen detailliert, wie Sie mit dab:AnalyticIntelligence neue Wege in der Datenanalyse gehen können. Für weitere Informationen oder ein persönliches Meeting wenden Sie sich gerne an uns. Wir setzen uns umgehend mit Ihnen in Verbindung!


Kommentare (0)
Sei der erste, der diesen Blog-Beitrag kommentiert.
Blog Anmeldung

Sie sind nicht angemeldet. Bitte melden Sie sich an um diesen Blogbeitrag zu kommentieren.

anmelden