Datenqualität messen: Mit 11 Kriterien Datenqualität quantifizieren
Einleitung
Für eine optimale Bewertung und Messung der Datenqualität sowie der Ableitung gezielter Verbesserungsmaßnahmen, müssen im Vorfeld entsprechende Datenqualitätskriterien definiert werden.
Datenqualitätskriterien (Data Quality Dimensions)
Erfahrunggemäß kommen die nachfolgend aufgeführten 11 Datenqualitätskriterien zur Anwendung. In den seltensten Fällen werden hierbei alle gleichzeitig angewendet. Vielmehr wird eine Auswahl aus den 11 Kriterien entsprechend der Sinnhaftigkeit und dem Zweck getroffen. Besonders bei der erstmaligen Definition von Datenqualitätskriterien empfehle ich die 2 - 3 offensichtlichsten anzuwenden. Erfahrungsgemäß bestehen diese meist aus den ersten 6 der Auflistung. Im Laufe der Zeit können in einem iterativen Prozess und entsprechend gesteigerter Lernkurve weitere Kriterien hinzugenommen werden.
|
Praxisbeispiel Anwendung der Datenqualitätskriterien
Das nachfolgende Schaubild zeigt beispielhaft, wie die Kriterien in der Praxis zur Anwendung kommen können.
Detailberschreibungen Datenqualitätskriterien
Eine detaillierte Beschreibung jedes einzelnen Datenqualitätskriterums können Sie hier nachlesen.
1. Vollständigkeit
Titel | Vollständigkeit (Completeness) |
Definition | Ein Datensatz muss alle notwendigen Attribute enthalten. Attribute müssen alle notwendigen Daten enthalten. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Vollständigkeit. |
Kennzahl | Erreichungsgrad Vollständigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Vollständigkeit Attribut
Das Attribut "Kundennummer" identifiziert einen Kunden und muss immer gefüllt sein. Vollständigkeit Datensatz Ein vollständiger "Kundenadressdatensatz" besteht aus folgenden Attributen.
Fehlt eines oder mehrere Attribute, ist der Datensatz nicht vollständig. |
Beispiel Berechnung |
100.000 Kundendatensätze liegen vor. Davon sind im Attribut "Kundennummer" 2.000 Feldeinträge leer. 100.000 - 2.000 = 98.000 |
2. Eindeutigkeit
Titel | Eindeutigkeit (Uniqueness) |
Definition | Jeder Datensatz muss eindeutig interpretierbar sein. |
Referenz | Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank gemessen wurde. |
Kennzahl | Erreichungsgrad Eindeutigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel |
Zwei Datensätze (z.B. Kundenadressdatensatz) mit unterschiedlicher ID (Kundennummer) unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Geburtsdatum) ID1 -> Gebdat = 21.05.1991 Alle weiteren Attribute wie z.B. Name, Vorname, Straße, Hausnummer, PLZ, Ort, sind identisch. Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Kunden handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keines der Geburtsdaten richtig ist. Somit sind beide Datensätze nicht mehr eindeutig interpretierbar. |
Beispiel Berechnung |
Statt 1.000 Kunden ergibt die Dublettenanalyse 960 Kunden. 960 / 1000 x 100 = 96% Eindeutigkeit |
3. Korrektheit
Titel | Korrektheit (Correctness) |
Definition | Die Daten müssen mit der Realität übereinstimmen |
Referenz | Mapping gegen Daten, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel. |
Kennzahl | Erreichungsgrad Korrektheit: 0 - 100% |
Messeinheit | Prozent |
Beispiel | Das Geburtsdatum natürlicher Personen (Endkunden) ist häufig mit dem Wert 01.01.1900 belegt. Im Jahr 2017 kann man davon ausgehen, das die wenigsten Personen > 105 Jahre sind. Es ist zu prüfen, bei wie vielen Kunden das Geburtsdatum 01.01.1900 vorkommt. |
Beispiel Berechnung |
100.000 Kundendatensätze liegen vor. Davon sind im Attribut "GebDat" 5.000 Kunden mit dem Datum 01.01.1900 belegt. 100.000 - 5.000 = 95.000 |
4. Aktualität
Titel | Aktualität (Timeliness) |
Definition | Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. |
Referenz | Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird. |
Kennzahl | Erreichnungsgrad Aktualität = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Es wird eine Interessentendatenbank mit 100.000 Interessenten permanent vorgehalten. Da Interessenten im Laufe der Zeit umziehen oder versterben verlieren auch die gespeicherten Daten zunehmend an Aktualität. Durch verschiedene Maßnahmen (z.B. telefonisches Nachfragen, Abgleich Daten Einwohnermeldeamt, usw.) soll überprüft werden, welche Interessentendaten noch aktuell sind. |
Beispiel Berechnung |
Von 100.000 Interessentendaten sind 15.000 Daten nicht mehr aktuell. 100.000 - 15.000 = 85.000 |
5. Genauigkeit
Titel | Genauigkeit (Accuracy) |
Definition | Die Daten müssen in der jeweils geforderten Exaktheit vorliegen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Genauigkeit. |
Kennzahl | Erfüllungsgrad Genauigkeit: 0 - 100% |
Messeinheit | Prozent |
Beispiel |
Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben. In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1.000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen. Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt. |
Beispiel Berechnung |
Prüfung: Von 100.000 Datensätze des Attributs "Preis" = 3.000 Regelverletzungen und des Attributs "Bestelldatum" 1.000 Regelverletzungen. 100.000 - 3.000 = 97.000 100.000 - 1.000 = 99.000 |
6. Konsistenz
Titel | Konsistenz (Consistency) |
Definition | Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Konsistenz. |
Kennzahl | Erfüllungsgrad Konsistenz = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Mehrere Attribute (Kundennummer, Vorname, Nachname, Straße, Hausnummer, PLZ, Ort) definieren einen Kundendatensatz. Für die korrekte Abwicklung von Geschäftsvorfällen müssen die Kundendatensätze 100% konsistent sein. Für die einzelnen Attribute eines Kundendatensatzes wurden Datenqualitätskriterien (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemessen. |
Beispiel Berechnung |
Bei 100.000 Datensätzen wurden 21.000 Datensätzen identifiziert, bei denen mind. 1 Attribut von den Attributen, die einen Datensatz definieren, die Datenqualitätskriterien verletzt. 100.000 - 21.000 = 79.000 |
7. Redundanzfreiheit
Titel | Redundanzfreiheit (Nonredundant) |
Definition | Innerhalb der Datensätze dürfen keine Dubletten vorkommen. |
Referenz | Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank verglichen wurde. |
Kennzahl | Erfüllungsgrad Redundanzfreiheit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Aus verschiedenen Datenquellen wurden redundant vorgehaltene Kundendaten zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jede Kundennummer darf nur einmal vorkommen. |
Beispiel Berechnung |
Die Dublettenprüfung ergibt, dass von 100.000 Kundennummern 8.000 doppelt vorliegen. 100.000 - 8.000 = 92.000 |
8. Relevanz
Titel | Relevanz (Relevancy) |
Definition | Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Relevanz. |
Kennzahl | Erfüllungsgrad Relevanz = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Für die Erstellung von Quartalsberichten sind nur die Rechnungen relevant, deren Rechnungsdatum innerhalb des Quartals liegen. Beim Vergleich von unterschiedlichen Reports des selben Quartals fällt auf, das Kennzahlen immer wieder differieren. Zurückzuführen ist dies auf den Umstand, dass immer wieder Rechnung einfließen, welche für das jeweils definierte Quartal nicht relevant sind. |
Beispiel Berechnung |
Für Q1 sind 100.000 Rechnungen einbezogen worden. Eine Prüfung ergibt, das 3.500 Rechnungen nicht berücksichtigt werden dürfen. 100.000 - 3.500 = 96.500 |
9. Einheitlichkeit
Titel | Einheitlichkeit (Uniformity) |
Definition | Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Einheitlichkeit. |
Kennzahl | Erfüllungsgrad Einheitlichkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel |
Kundenadressen sind entsprechend der Rechtschreibregeln zu erfassen. Es wird z.B. festgestellt, dass Ortsnamen in verschiedenen Schreibweisen erfasst wurden. (z.B. Köln, Koeln, KÖLN, KOELN) |
Beispiel Berechnung |
Von 100.000 Ortsnamen weichen 25.000 Ortsnamen von der vereinbarten Schreibregel ab. 100.000 - 25.000 = 75.000 |
10. Zuverlässigkeit
Titel | Zuverlässigkeit (Reliability) |
Definition | Die Entstehung der Daten muss nachvollziehbar sein. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Zuverlässigkeit. |
Kennzahl | Erfüllungsgrad der Zuverlässigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel |
|
Beispiel Berechnung |
zu 1.) 100 - 5 = 95 zu 2.) 100 - 20 = 80 |
11. Verständlichkeit
Titel | Verständlichkeit (Understandability) |
Definition | Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Verständlichkeit. |
Kennzahl | Erfüllungsgrad Verständlichkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Für die Datenlieferung eines Reports wurde vereinbart, dass die Attributnamen mit verständlichen Begriffen geliefert werden (z.B. cnvn45 = Name). Darüber hinaus sollen Attribute mit codierten Klassifizierungs-Feldeinträgen in Begriffe transferiert werden (z.B. 1 = Herr, 2 = Frau, 3 = Firma). |
Beispiel Berechnung |
Bei 100 Attributen wurden 5 Attribute mit kryptischen Namen geliefert und bei 2 Attributen wurde die codierte Klassifizierung nicht transformiert. 100 - 7 = 93 |
Lesen Sie auch:
- Data Strategy Lifecycle wirkungsvoll im Unternehmen einführen
- Data Catalogue – Beschleuniger der Datenkompetenz (Data Literacy)
- Data Governance, der Schlüssel zu einer erfolgreichen datenintelligenten Organisationskultur
- Data Strategy: Welche Erfolgsfaktoren sind relevant für nachhaltige Wettbewerbsvorteile durch KI-basierte Datenanalysen und Digitalisierung?
- Data Governance: Vom Model Driven Design (MDD) zum Data Catalog
- Data Governance: Vom Data Profiling zur ganzheitlichen Leistungsbewertung von Daten
- Prozessorientierter Data Quality Index erfolgreich einführen
- Wie Sie schnell bewerten können, ob Sie ein Problem mit der Datenqualität haben
- Logikbäume: Mehr Transparenz zur Wirkung schlechter Datenqualität auf Unternehmensziele
Datenqualitätssicherung, Datenqualität messen, Datenqualität verbessern, Datenqualitätskriterien, Data Quality Dimensions
- Geändert am .
- Aufrufe: 110203