Datenqualität messen, steuern und verbessern
Betriebliche Prozesse benötigen Geschäftsdaten von hoher Qualität. Aktuell, konsistent und widerspruchsfrei sollen sie sein. Doch die Realität sieht oft anders aus. Erfolgreiche Unternehmen verstehen Datenqualität daher zunehmend als Prozess und als strategisch wichtige Aufgabe, in die es zu investieren lohnt.
Eine objektive Beurteilung der Qualität von Geschäftsdaten muss aus dem Blickwinkel aller Abnehmer erfolgen. Einzelne Abnehmer können mit der Datenqualität durchaus zufrieden sein, während man bei der Beurteilung aller Aspekte zu einem schlechten Ergebnis kommt. Um überhaupt von guter oder schlechter Datenqualität sprechen zu können, müssen Kriterien festgelegt werden, anhand derer die Daten gemessen werden. Zu den wichtigsten DQ-Kriterien gehören:
- Korrektheit
- Vollständigkeit
- Aktualität
- Referentielle Integrität
- Konsistenz
- Eindeutigkeit
- Einheitlichkeit
- Kompaktheit
- Zuverlässigkeit
- Redundanzfreiheit
- Relevanz
Diese Kriterien sollten in einer Metrik zur Messung der Datenqualität Eingang finden. Eine solche Metrik macht die Ausprägungen verschiedener Messreihen vergleichbar und verhindert eine subjektive Auslegung der Datenqualität aus einem eingeschränkten Blickwinkel.
Erfolgreiches Vorgehensmodell auf Basis von RapidRep
RapidRep enthält im Lieferumfang einen Lösungsansatz, mit dem Daten in Tabellenform oder in strukturierten Textdateien wirksam und effizient auf deren Qualität hin überprüft werden können. Das Vorgehen ist praxiserprobt und führt sehr schnell zu ersten Ergebnissen.
Weitere Informationen finden Sie auch in der Broschüre
Datenqualität erfolgreich steuern (pdf - 661,5 KiB)Die Geschäftsdaten werden zum Großteil in relationalen Datenbanksystemen vorgehalten und müssen sowohl technische als auch inhaltliche Anforderungen erfüllen. Daher ist es von Vorteil, wenn bei der Verbesserung der Datenqualität technisch und fachlich ausgerichtete Mitarbeiter eng zusammenarbeiten.
Ein wirksamer Prozess zur Verbesserung der Datenqualität muss deswegen in der Lage sein, Mitarbeiter aus Fach- und IT-Abteilung einzubinden. Ein solcher Prozess setzt sich grundsätzlich aus vier Phasen zusammen.
Definieren
Mitarbeiter aus dem Datenqualitätsteam legen fest, welche Datenquellen überprüft werden und welche Eigenschaften die Geschäftsdaten haben müssen (sog. Invarianten). Es kann aber auch hilfreich sein, genau jene Konstellationen zu beschreiben, die fehlerhafte oder unvollständige Daten charakterisieren.
Als allseits akzeptiertes und geeignetes Werkzeug bietet sich Excel für die Festlegung der Regeln und zur Kommunikation zwischen Mitarbeitern aus IT- und Fachabteilung an.
In Excel definieren Mitarbeiter, ...
- welche Daten (Tabellen, Abfragen oder Dateien) getestet werden sollen.
- welche Prüfungen (Tests) auf den Daten angewandt werden und wie die dazugehörigen Fehlerhinweistexte lauten, falls Datensätze die Prüfungen nicht bestehen.
- Schwellenwerte für die Anzahl fehlerhafter Datensätze, ab deren Überschreiten eine Benachrichtigung erfolgen soll.
- Regeln für die einzelnen Prüfungen, die RapidRep dazu verwendet, um fehlerhafte Datensätze eindeutig identifizieren zu können.
Messen
Die definierten Regeln bilden die Logik zur Messung der Datenqualität. Auswertungen über die Verteilung von Datenausprägungen im Zeitablauf können zur Plausibilisierung verwendet werden. RapidRep führt Messungen maschinell und vollständig automatisiert durch. Zur kontinuierlichen Qualitätsmessung lässt sich RapidRep periodisch (z.B. täglich), zeitgesteuert oder individuell parametrisiert ausführen. RapidRep speichert alle fehlerhaften Datensätze in einer Datenbank. Parameter beim Aufruf von RapidRep steuern den Umfang der Auswertungen und kennzeichnen die Ergebnisse einer Messung, um Veränderungen gegenüber vorherigen Auswertungen genau verfolgen zu können.
Analysieren
Nun gilt es aus den vielen Messergebnissen Erkenntnisse abzuleiten, die später als Grundlage für Verbesserungsmaßnahmen dienen können. RapidRep stellt zu diesem Zweck die Ergebnisse von Messungen in einer detaillierten Excel Arbeitsmappe dar.
- Das Übersichtsblatt listet die Anzahl fehlerhafter Datensätze pro Prüfung auf und stellt sie den erfolgreich geprüften Datensätzen gegenüber.
- Das Delta-Arbeitsblatt stellt die Veränderungen gegenüber vorherigen Analyseläufen dar. Übersteigen diese einen absoluten oder relativen Schwellenwert, erfolgt eine farbliche Kennzeichnung.
- Zu jeder geprüften Datenquelle existiert ein separates Arbeitsblatt, das die fehlerhaften Datensätze zu dieser Datenquelle auflistet.
- Ein weiteres Arbeitsblatt listet die aktuell gültigen Datenqualitätsregeln auf, die RapidRep zur Auswertung herangezogen hat.
Die Fehlerbewertung ist durch die kompakte und verständliche Darstellung auch Mitarbeitern ohne technisches Spezialwissen möglich.
Verbessern
Zum Aufspüren von Fehlern hilft nur intensives Testen. Die Ergebnisse, die ein Programm erzeugt und abspeichert, können mit dem hier vorgestellten Ansatz über Regeln plausibilisiert werden.
Um bereits fehlerhafte Daten zu verbessern, besteht die Möglichkeit zur Definition von Korrekturregeln. Dabei wird die Tatsache ausgenutzt, dass RapidRep die eindeutige Regel ID kennt, gegen die ein Datensatz verstoßen hat. Für jede Regel ID kann das Datenqualitätsteam festlegen, welche Gegenmaßnahmen in Form von Updates, Defaultwerten etc. ergriffen werden können.
Fazit
Mit Hilfe von RapidRep können Unternehmen aller Branchen die Qualität ihrer Geschäftsdaten nachhaltig und kostengünstig verbessern.
RapidRep enthält bei Auslieferung ein vollständiges, konfigurierbares Beispiel, das es Ihnen innerhalb kurzer Zeit erlaubt, beliebige Datenquellen Ihres Unternehmens auf deren Qualität hin zu überprüfen. Es fehlen nur noch Ihre Regeln.
Sprechen Sie uns an, wenn Sie das Thema interessiert. Die Lösung ist ganz gewiss auch in Ihrem Unternehmen einsetzbar.