06.01.2014

Stamm­da­ten Du­pli­ka­te iden­ti­fi­zie­ren – Ein­fach, oder?

Heute beschäftigen wir uns mit einer vermeintlich ganz einfachen Anforderung, nämlich dem Identifizieren von Stammdaten-Duplikaten.

Viele kennen das Problem mit den Doubletten: Eigentlich sollte der Kunde oder Lieferant nur einmal im System angelegt sein, tatsächlich ist er aber mehrfach vorhanden, weil über Datenmigrationen oder Systemzusammenführungen im Laufe der Zeit Duplikate entstanden sind. „Dagobert Doublette“ kann somit mehrfach vorkommen.

 

Vendor No.NameAddressTaxID
1001Dagobert DoubletteHauptstraße 17, 94469 DeggendorfCC00000001
5311Dagobert DoubletteHauptstr. 17, 94469 DeggendorfAB11223344
6442 Lieschen Müller Bahnhofstr. 13, 55117 Dorfheim ED98-76-54-32
9876 Lieschen Mueller Bahnhofstr. 13, 55117 DorfheimED98765432
9877John DoeWaldweg 1, 77788 HitzingenAB11223344
9992 Karl KleinHauptstr. 17, 94469 Deggendorf ZZ55667799

 

Begründet sein kann dies ganz einfach in verschiedenen Schreibweisen: „Lieschen Müller“ existiert bereits im System, der Sachbearbeiter jedoch sucht nach „Lieschen Mueller“, erhält hier kein Suchergebnis und legt als Folge versehentlich einen zweiten Stammsatz an.

Die Probleme, die daraus resultieren, können vielfältig sein. Es wird der falsche Lieferant bezahlt (oder eine Mahnung beim falschen Lieferant eingebucht, was zu einer Doppelzahlung führen kann). Prozesse werden fehleranfälliger und verlangsamen sich.

Doch wie identifziert man nun solche Duplikate? Wir wollen in diesem Beitrag auf die Aspekte

  1. Auswahl geeigneter Suchkriterien
  2. Bereinigung von Daten im Vorfeld
  3. Trennscharfe vs. Unscharfe Suchansätze
  4. Probleme bei der Vergleichbarkeit von Ergebnissen

eingehen.

Ge­eig­ne­te Such­kri­te­rien

Offensichtlich würde ein Namensvergleich keine Wirkung erzielen, denn für zeichenvergleichende Suchalgorithmen würde zwar „Dagobert Doublette“ als Duplikat identifziert werden können, nicht aber „Lieschen Müller“ , da es sich von Lieschen Mueller“ unterscheidet.

 

Vendor No.
Name
Address
TaxID
1001 Dagobert Doublette Hauptstraße 17, 94469 Deggendorf CC00000001
5311 Dagobert DoubletteHauptstr. 17, 94469 Deggendorf AB11223344
6442Lieschen Müller Bahnhofstr. 13, 55117 DorfheimED98-76-54-32
9876Lieschen MuellerBahnhofstr. 13, 55117 DorfheimED98765432
9877John DoeWaldweg 1, 77788 Hitzingen AB11223344
9992Karl Klein Hauptstr. 17, 94469 DeggendorfZZ55667799

Hier führen andere Wege zum Ziel, etwa eine Duplikatssuche nach Adressen, Steuer- oder Telefonnummern oder Bankverbindungen. Wichtig ist also, die Suchmethoden kreativ einzusetzen. Je eindeutiger die Werte sind (z.B. Steuernummern oder Emailadressen) desto weniger „false positives“ (also potentielle Duplikate, die eigentlich keine sind) erhält man.

Trenn­schar­fe vs. un­schar­fe Such­an­sät­ze

Manchmal ist es notwendig, die Duplikatssuche „unscharf“ durchzuführen, mehrfach vorhandene Stammsätze zu identifizieren, die von herkömmlichen Analysen nicht identifziert werden. Hier sind phonetische Ähnlichkeiten oder die Levenshtein-Distanz als Beispiele zu nennen. Moderne Analysetools bieten alle oben genannten Möglichkeiten, und erlauben so das Finden von Duplikaten, die auf herkömmliche Art und Weise nicht hätten identifziert werden können. Die größeren Treffermengen können jedoch auch mehr „false positives“ beinhalten, und sind arbeitsaufwändiger abzuarbeiten.

 

Vendor No.NameAddressTaxID
1001 Dagobert DoubletteHauptstraße 17, 94469 DeggendorfCC00000001
5311 Dagobert DoubletteHauptstr. 17, 94469 DeggendorfvvAB11223344
6442Lieschen MüllerBahnhofstr. 13, 55117 DorfheimED98-76-54-32
9876Lieschen MuellerBahnhofstr. 13, 55117 DorfheimED98765432
9877John Doe Waldweg 1, 77788 HitzingenAB11223344
9992Karl KleinHauptstr. 17, 94469 DeggendorfZZ55667799

Be­rei­nig­ung von Da­ten im Vor­feld

Vendor
Name
Address
TaxID
TaxID clean
1001 Dagobert DoubletteHauptstraße 17, 94469 DeggendorfCC00000001CC00000001
5311Dagobert Doublette Hauptstr.17, 94469 DeggendorfAB11223344AB11223344
6442Lieschen MüllerBahnhofstr. 13, 55117 DorfheimED98-76-54-32ED98765432
9876 Lieschen MuellerBahnhofstr. 13, 55117 Dorfheim ED98765432 ED98765432
9877 John DoeWaldweg 1, 77788 Hitzingen AB11223344AB11223344
9992 Karl KleinHauptstr.17, 94469 Deggendorf ZZ55667799 ZZ55667799

Pro­ble­me bei der Ver­gleich­bar­keit von Er­geb­nis­sen

Führt man verschiedene Läufe mit verschiedenen Kriterien durch, ist es schwierig, die Ergebnisse zu vereinen bzw. vergleichbar zu machen. Basierend auf „Name“ wird ein Duplikat identifiziert (1001 / 5311). Mit Kriterium „Adresse“ werden zwei Duplikate identifizert (5311 / 9992 und 6442 / 9876). Prüft man die Steuer-ID, so ist es wiederum ein Duplikat (5311 / 9877). Indirekt steht also 9877 mit 1001 in Verbindung, obwohl sie direkt kein Kriterium teilen, weder Name, noch Adresse, noch Steuer ID.

 

 

Vendor No.
Name
Address
TaxID
1001Dagobert DoubletteHauptstraße 17, 94469 DeggendorfCC00000001
5311Dagobert DoubletteHauptstr. 17, 94469 Deggendorf AB11223344
6442Lieschen Müller Bahnhofstr. 13, 55117 DorfheimED98-76-54-32
9876Lieschen MuellerBahnhofstr. 13, 55117 DorfheimED98765432
9877John DoeWaldweg 1, 77788 Hitzingen AB11223344
9992Karl KleinHauptstr. 17, 94469 DeggendorfZZ55667799

 

Zusammenfassend kann man sagen, dass die eigentlich einfache Fragestellung „Identifizeren von Duplikaten“ sich bei näherer Betrachtung durchaus als Herausforderung darstellen kann. Wichtig bei der Planung solcher Projekte sind daher ein stabiles Konzept mit einer klaren Marschroute, was die Methodologie anbelangt, sowie einen Plan für die anschließende Korrektur der Duplikate im System.


Kommentare (0)
Sei der erste, der diesen Blog-Beitrag kommentiert.
Blog Anmeldung

Sie sind nicht angemeldet. Bitte melden Sie sich an um diesen Blogbeitrag zu kommentieren.

anmelden