Zum Hauptinhalt springen

The Data Economist Blog (DE) | Etablierung einer Data Inspired & Digital Culture

Datenqualität messen: Mit 11 Kriterien Datenqualität quantifizieren

Einleitung

Für eine optimale Bewertung und Messung der Datenqualität sowie der Ableitung gezielter Verbesserungsmaßnahmen, müssen im Vorfeld entsprechende Datenqualitätskriterien definiert werden.

Datenqualitätskriterien (Data Quality Dimensions)

Erfahrunggemäß kommen die nachfolgend aufgeführten 11 Datenqualitätskriterien zur Anwendung. In den seltensten Fällen werden hierbei alle gleichzeitig angewendet. Vielmehr wird eine Auswahl aus den 11 Kriterien entsprechend der Sinnhaftigkeit und dem Zweck getroffen. Besonders bei der erstmaligen Definition von Datenqualitätskriterien empfehle ich die 2 - 3 offensichtlichsten anzuwenden. Erfahrungsgemäß bestehen diese meist aus den ersten 6 der Auflistung. Im Laufe der Zeit können in einem iterativen Prozess und entsprechend gesteigerter Lernkurve weitere Kriterien hinzugenommen werden.

  1. Vollständigkeit
  2. Eindeutigkeit
  3. Korrektheit
  4. Aktualität
  5. Genauigkeit
  6. Konsistenz
  7. Redundanzfreiheit
  8. Relevanz
  9. Einheitlichkeit
  10. Zuverlässigkeit
  11. Verständlichkeit

Elf Datenqualitätskriterien

Praxisbeispiel Anwendung der Datenqualitätskriterien

Das nachfolgende Schaubild zeigt beispielhaft, wie die Kriterien in der Praxis zur Anwendung kommen können.

Praxisbeispiel Anwendung Datenqualitätskriterien

Detailberschreibungen Datenqualitätskriterien

Eine detaillierte Beschreibung jedes einzelnen Datenqualitätskriterums  können Sie hier nachlesen.

1. Vollständigkeit

Titel Vollständigkeit (Completeness)
Definition Ein Datensatz muss alle notwendigen Attribute enthalten.
Attribute müssen alle notwendigen Daten enthalten.
Referenz Geschäftsregeln definieren die Kriterien für 100% Vollständigkeit.
Kennzahl Erreichungsgrad Vollständigkeit = 0 - 100%
Messeinheit Prozent
Beispiel Vollständigkeit Attribut

Das Attribut "Kundennummer" identifiziert einen Kunden und muss immer gefüllt sein.

Vollständigkeit Datensatz

Ein vollständiger "Kundenadressdatensatz" besteht aus folgenden Attributen.

  1. Kundennummer
  2. Vorname
  3. Nachname
  4. Straße
  5. Hausnummer
  6. PLZ
  7. Ort

Fehlt eines oder mehrere Attribute, ist der Datensatz nicht vollständig.

Beispiel Berechnung

100.000 Kundendatensätze liegen vor. Davon sind im Attribut "Kundennummer" 2.000 Feldeinträge leer.

100.000 - 2.000 = 98.000
98.000 / 100.000 x 100 = 98% Vollständigkeit

 2. Eindeutigkeit

Titel Eindeutigkeit  (Uniqueness)
Definition Jeder Datensatz muss eindeutig interpretierbar sein.
Referenz Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank gemessen wurde.
Kennzahl Erreichungsgrad Eindeutigkeit = 0 - 100%
Messeinheit Prozent
Beispiel

Zwei Datensätze (z.B. Kundenadressdatensatz) mit unterschiedlicher ID (Kundennummer) unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Geburtsdatum)

ID1 -> Gebdat = 21.05.1991
ID2 -> Gebdat = 23.06.1991

Alle weiteren Attribute wie z.B. Name, Vorname, Straße, Hausnummer, PLZ, Ort, sind identisch.

Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Kunden handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keines der Geburtsdaten richtig ist. Somit sind beide Datensätze nicht mehr eindeutig interpretierbar.

Beispiel Berechnung

Statt 1.000 Kunden ergibt die Dublettenanalyse 960 Kunden.

960 / 1000 x 100 = 96% Eindeutigkeit

3. Korrektheit

Titel Korrektheit (Correctness)
Definition Die Daten müssen mit der Realität übereinstimmen
Referenz Mapping gegen Daten, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel.
Kennzahl Erreichungsgrad Korrektheit: 0 - 100%
Messeinheit Prozent
Beispiel Das Geburtsdatum natürlicher Personen (Endkunden) ist häufig mit dem Wert 01.01.1900 belegt. Im Jahr 2017 kann man davon ausgehen, das die wenigsten Personen > 105 Jahre sind. Es ist zu prüfen, bei wie vielen Kunden das Geburtsdatum 01.01.1900 vorkommt.
Beispiel Berechnung

100.000 Kundendatensätze liegen vor. Davon sind im Attribut "GebDat" 5.000 Kunden mit dem Datum 01.01.1900 belegt.

100.000 - 5.000 = 95.000
95.000 / 100.000 x 100 = 95 % Korrektheit

4. Aktualität

Titel Aktualität (Timeliness)
Definition Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen.
Referenz Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird.
Kennzahl Erreichnungsgrad Aktualität = 0 - 100%
Messeinheit Prozent
Beispiel Es wird eine Interessentendatenbank mit 100.000 Interessenten permanent vorgehalten. Da Interessenten im Laufe der Zeit umziehen oder versterben verlieren auch die gespeicherten Daten zunehmend an Aktualität. Durch verschiedene Maßnahmen (z.B. telefonisches Nachfragen, Abgleich Daten Einwohnermeldeamt, usw.) soll überprüft werden, welche Interessentendaten noch aktuell sind.
Beispiel Berechnung

Von 100.000 Interessentendaten sind 15.000 Daten nicht mehr aktuell.

100.000 - 15.000 = 85.000
85.000 / 100.000 x 100 = 85% Aktualität

5. Genauigkeit

Titel Genauigkeit (Accuracy)
Definition Die Daten müssen in der jeweils geforderten Exaktheit vorliegen.
Referenz Geschäftsregeln definieren die Kriterien für 100% Genauigkeit.
Kennzahl Erfüllungsgrad Genauigkeit: 0 - 100%
Messeinheit Prozent
Beispiel

Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben.

In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1.000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen.

Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt. 

Beispiel Berechnung

Prüfung: Von 100.000 Datensätze des Attributs "Preis" = 3.000 Regelverletzungen und des Attributs "Bestelldatum" 1.000 Regelverletzungen.

100.000 - 3.000 = 97.000
97.000 / 100.000 x 100 = 97% Genauigkeit "Preis"

100.000 - 1.000 = 99.000
99.000 / 100.000 x 100 = 99% Genauigkeit "Bestelldatum"

6. Konsistenz

Titel Konsistenz (Consistency)
Definition Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.
Referenz Geschäftsregeln definieren die Kriterien für 100% Konsistenz.
Kennzahl Erfüllungsgrad Konsistenz = 0 - 100%
Messeinheit Prozent
Beispiel Mehrere Attribute (Kundennummer, Vorname, Nachname, Straße, Hausnummer, PLZ, Ort) definieren einen Kundendatensatz. Für die korrekte Abwicklung von Geschäftsvorfällen müssen die Kundendatensätze 100% konsistent sein. Für die einzelnen Attribute eines Kundendatensatzes wurden Datenqualitätskriterien (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemessen.
Beispiel Berechnung

Bei 100.000 Datensätzen wurden 21.000 Datensätzen identifiziert, bei denen mind. 1 Attribut von den Attributen, die einen Datensatz definieren, die Datenqualitätskriterien verletzt.

100.000 - 21.000 = 79.000
79.000 / 100.000 x 100 = 79% Konsistenz "Kundendatensätze"

7. Redundanzfreiheit

Titel Redundanzfreiheit (Nonredundant)
Definition Innerhalb der Datensätze dürfen keine Dubletten vorkommen.
Referenz Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank verglichen wurde.
Kennzahl Erfüllungsgrad Redundanzfreiheit = 0 - 100%
Messeinheit Prozent
Beispiel Aus verschiedenen Datenquellen wurden redundant vorgehaltene Kundendaten zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jede Kundennummer darf nur einmal vorkommen.
Beispiel Berechnung

Die Dublettenprüfung ergibt, dass von 100.000 Kundennummern 8.000 doppelt vorliegen.

100.000 - 8.000 = 92.000
92.000 / 100.000 x 100 = 92% Redundanzfreiheit

8. Relevanz

Titel Relevanz (Relevancy)
Definition Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen.
Referenz Geschäftsregeln definieren die Kriterien für 100% Relevanz.
Kennzahl Erfüllungsgrad Relevanz = 0 - 100% 
Messeinheit Prozent
Beispiel Für die Erstellung von Quartalsberichten sind nur die Rechnungen relevant, deren Rechnungsdatum innerhalb des Quartals liegen. Beim Vergleich von unterschiedlichen Reports des selben Quartals fällt auf, das Kennzahlen immer wieder differieren. Zurückzuführen ist dies auf den Umstand, dass immer wieder Rechnung einfließen, welche für das jeweils definierte Quartal nicht relevant sind.
Beispiel Berechnung

Für Q1 sind 100.000 Rechnungen einbezogen worden. Eine Prüfung ergibt, das 3.500 Rechnungen nicht berücksichtigt werden dürfen.

100.000 - 3.500 = 96.500
96.500 / 100.000 x 100 = 96,5% Relevanz

9. Einheitlichkeit

Titel Einheitlichkeit (Uniformity)
Definition Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.
Referenz Geschäftsregeln definieren die Kriterien für 100% Einheitlichkeit.
Kennzahl Erfüllungsgrad Einheitlichkeit = 0 - 100%
Messeinheit Prozent
Beispiel

Kundenadressen sind entsprechend der Rechtschreibregeln zu erfassen.

Es wird z.B. festgestellt, dass Ortsnamen in verschiedenen Schreibweisen erfasst wurden. (z.B. Köln, Koeln, KÖLN, KOELN)

Beispiel Berechnung

Von 100.000 Ortsnamen weichen 25.000 Ortsnamen von der vereinbarten Schreibregel ab.

100.000 - 25.000 = 75.000
75.000 / 100.000 x 100 = 75% Einheitlichkeit "Ortsnamen"

10. Zuverlässigkeit

Titel Zuverlässigkeit (Reliability)
Definition Die Entstehung der Daten muss nachvollziehbar sein.
Referenz Geschäftsregeln definieren die Kriterien für 100% Zuverlässigkeit.
Kennzahl Erfüllungsgrad der Zuverlässigkeit = 0 - 100%
Messeinheit Prozent
Beispiel
  1. Es ist vereinbart täglich bis 07:00 Uhr eine bestimmte Menge an Daten vom CRM-System an das Abrechnungssystem zu liefern. Im Laufe der Zeit wird festgestellt, das entweder die Datenlieferung zu spät erfolgt oder nur einen Teil der vereinbarten Daten geliefert wurde.
  2. Im Zuge von Bigdata werden immer mehr Daten gesammelt und ausgewertet. Dabei gibt es Daten aus verlässlichen Quellen, d.h. die Entstehung der Daten und deren Qualität ist bekannt. Andererseits gibt es Daten z.B. aus öffentlichen Quellen, bei denen nicht bekannt ist, wie diese entstehen. Genau bei diesen werden auch immer wieder Schwankungen in der Datenqualität festgestellt. 
Beispiel Berechnung

zu 1.)
Von 100 Lieferterminen wurden 5 Liefertermine nicht eingehalten.

100 - 5 = 95
95 / 100 x 100 = 95% Zuverlässigkeit (Liefertermin)

zu 2.)
Von 100 Attributen kommen 20 Attribute aus unzuverlässigen Quellen.

100 - 20 = 80
80 / 100 x 100 = 80% Zuverlässigkeit.

11. Verständlichkeit

Titel  Verständlichkeit (Understandability)
Definition Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen.
Referenz Geschäftsregeln definieren die Kriterien für 100% Verständlichkeit.
Kennzahl Erfüllungsgrad Verständlichkeit = 0 - 100%
Messeinheit Prozent
Beispiel Für die Datenlieferung eines Reports wurde vereinbart, dass die Attributnamen mit verständlichen Begriffen geliefert werden (z.B. cnvn45 = Name). Darüber hinaus sollen Attribute mit codierten Klassifizierungs-Feldeinträgen in Begriffe transferiert werden (z.B. 1 = Herr, 2 = Frau, 3 = Firma). 
Beispiel Berechnung

Bei 100 Attributen wurden 5 Attribute mit kryptischen Namen geliefert und bei 2 Attributen wurde die codierte Klassifizierung nicht transformiert.

100 - 7 = 93
93 / 100 x 100 = 93% Verständlichkeit

 

Lesen Sie auch:

 

Datenqualitätssicherung, Datenqualität messen, Datenqualität verbessern, Datenqualitätskriterien, Data Quality Dimensions

  • Geändert am .
  • Aufrufe: 110203