So entwickeln Sie einen betrieblichen Datenqualitätsprozess
How to build an operational data quality process

In einem aktuellen Artikel haben wir den Aufbau eines DataOps-Prozesses für Datenqualität und Datentests beschrieben. Ziel dieses Artikels war es, einen architektonischen Rahmen und einen Prozess für DataOps in einer typischen Datenanalyse- und Warehousing-Umgebung zu beschreiben, in der Datenqualität und -tests entscheidend sind.

Dieser Artikel „So entwickeln Sie einen betrieblichen Datenqualitätsprozess“ befasst sich etwas ausführlicher mit den Voraussetzungen für den Aufbau eines voll funktionsfähigen Datenqualitätsteams und einer entsprechenden Funktion, die in der Lage ist, den End-to-End Datenqualitätsmanagement-Prozess zu managen.

Deswegen ist die Datenqualität so wichtig

Das erste Ziel ist wahrscheinlich die Sicherung der Finanzierung und Unterstützung für das Datenqualitätsmanagement. Viele Führungskräfte gehen davon aus, dass die erste Testphase des Systems ausgereicht hat, um alle Datenmängel zu erkennen.

Tatsächlich können Probleme mit der Datenqualität aber zu jedem beliebigen Zeitpunkt im Betriebszyklus eines Systems auftreten und müssen daher kontinuierlich überwacht und ausgebessert werden.

Einige Unternehmen mit einem etablierten und ausgereiften Ansatz für das Datenmanagement verfügen möglicherweise bereits über ein „Data Quality Centre of Excellence“ oder ein spezielles Datenqualitätsteam.

Falls dies nicht der Fall ist, ist es in Ordnung, eine Datenqualitätsmanagement-Initiative in einem Bereich wie einer Datenanalyse- oder Data-Warehouse-Umgebung zu starten, weil dies ein ausgezeichneter Zugangspunkt für die Bewertung großer Datenmengen aus dem gesamten Unternehmen ist.

Alle festgestellten Mängel können an die übergeordneten Geschäftsbereiche weitergegeben werden, um die Ursache des Problems zu beheben und gleichzeitig betriebliche Einsparungen zu erzielen.

Viele Unternehmen nutzen ihre Erfahrungen mit der Verwaltung der Datenqualität in einer Datenanalyseumgebung als Plattform für die Einführung einer viel breiteren, unternehmensweiten Datenqualitätsfunktion.

Die „Datenleitungen“ in Ordnung bringen

Bevor Sie mit Ihrem operativen Datenqualitätsprozess beginnen, sollten Sie den Bereich festlegen, in dem Sie beginnen möchten.

Abhängig von der Komplexität und dem Umfang der Daten in Ihrer Analyseumgebung kann es Hunderte von Datenquellen geben, die in Ihre Warehousing-Systeme und Analyseplattformen fließen.

Zunächst muss sich Ihr Team einen genauen Überblick darüber verschaffen, welche Daten in die und aus der Datenlandschaft fließen. Danach können Sie damit beginnen, einige der kritischsten Daten zu identifizieren, um mit dem anfänglichen Prozess des Datenqualitätsmanagements zu beginnen.

Der Lebenszyklus des Datenqualitätsmanagements

Zu den typischen Aufgaben Ihres Datenqualitätsteams bzw. der für die Datenqualität verantwortlichen Teammitglieder gehören folgende:

Identifizierung und Definition von Datenqualitätsregeln

Bewertung und Überwachung von Datenqualitätsregeln

Behebung und Verbesserung von Datenqualitätsmängeln

Auswertung und Planung der Datenqualität

Identifizierung und Definition von Datenqualitätsregeln

Ihr Team wird zunächst damit beauftragt, eine „Bibliothek“ von Datenqualitätsregeln anzulegen, um die in der früheren Analyse ermittelten Ausgangsdaten zu verwalten.

Eine typische Datenqualitätsbibliothek sollte mehrere Vorteile bieten:

Eine zentrale, benutzerfreundliche Oberfläche, die eine schnelle und zuverlässige Erstellung von Datenqualitätsregeln ermöglicht

Die Möglichkeit, Änderungen und Ergänzungen zu prüfen und zu protokollieren (besonders wichtig für die behördliche Kontrolle und Data Governance)

Eine Bereitstellung der Datenqualitätsspezifikationen für die Durchführung von Bewertungs- und Überwachungstests, die in einer späteren Phase folgen werden

Für die Erstellung von Regeln zur Datenqualität ist eine Kombination aus technischem und wirtschaftlichem Fachwissen erforderlich. Einige Regeln können zum Beispiel bestimmte Bereiche oder vordefinierte Sätze akzeptabler Werte auf der Grundlage von Geschäftsereignissen festlegen.

Das bedeutet, dass derjenige, der die Regeln erstellt, das nötige Fachwissen haben muss, um die richtigen Fragen zu stellen und die Antworten in gut definierte Regelspezifikationen zu übersetzen.

Wichtiger Hinweis: In der Vergangenheit haben viele Unternehmen ihre Datenqualitätsregeln in komplexen und technischen Kodierungssprachen kodiert, was ihre Verwaltung und gemeinsame Nutzung erschwert hat. Dank moderner Technologien (wie z.B. unserer BiG EVAL-Lösung) können Unternehmen heute eine flexible, benutzerfreundliche Regelbibliothek erstellen, die im gesamten Unternehmen gemeinsam genutzt und wiederverwendet werden kann.


Bewertung und Überwachung von Datenqualitätsregeln

Ihr Team sollte zu diesem Zeitpunkt über eine erste Bibliothek von Datenqualitätsregeln für die Daten verfügen, die Sie als „in-scope“ eingestuft haben.

Im nächsten Schritt führen Sie eine erste Bewertung durch, um zu sehen, wie viele Fehler gefunden werden. Das Team wird die Regeln auch feinabstimmen müssen, um die schwerwiegendsten Fehler zu finden und gleichzeitig Warnungen für weniger schwerwiegende Probleme bereitzustellen, die zwar ein Hindernis darstellen, aber weniger betriebliche Auswirkungen haben können.

Zu den Konzepten, die Ihr Team einführen sollte, gehört das Konzept einer „Datenqualitäts-Firewall“, die Ihre analytische Datenlandschaft oder die von Ihnen untersuchten Datenplattformen umgibt. Ziel einer Datenqualitäts-Firewall ist es, sicherzustellen, dass Daten von schlechter Qualität aufgespürt und blockiert werden, bevor sie die Analyseplattform (oder andere Datenspeicherorte) erreichen oder verlassen.

Um eine Firewall für die Datenqualität zu errichten, müssen Sie sicherstellen, dass das von Ihnen verwendete Tool für die Datenqualität in der Lage ist, zwei Arten von Datenqualitätsbewertungen durchzuführen:

1. Trapping/Gating der Quelldatenqualität

2. Überwachung der Datenqualität in Echtzeit

Beim Gating der Datenqualität geht es darum, dass alle Quellsysteme Ihre Datenqualitätsbibliotheken aufrufen können, um Daten zu validieren, bevor sie überhaupt in ein System oder eine Informationskette gelangen.

Das Gating der Datenqualität (mit vordefinierten Regeln aus Ihrer Bibliothek) ist der „Heilige Gral“ des Datenqualitätsmanagements, denn es verhindert, dass ein Defekt auftritt, bevor er in den verschiedenen Systemen eines typischen Unternehmens Schaden anrichten kann.

Mit der Echtzeit-Überwachung sorgen Sie dafür, dass alle „fliegenden“ Prozesse, die von qualitativ hochwertigen Informationen abhängen, während eines laufenden Prozesses Fehler abfangen können.



Behebung und Verbesserung von Datenqualitätsmängeln

Nachdem Sie Datenfehler identifiziert haben, müssen Sie entscheiden, welche Maßnahmen Sie ergreifen wollen, wobei Sie in der Regel mehrere Optionen haben:

Option 1: Bereinigen Sie die Daten während eines operativen Prozesses

Wenn ein wiederkehrender Fehler schwer zu vermeiden ist, können Sie die Daten durch Umwandlung in einen korrekten Wert bereinigen. Mitunter empfiehlt es sich, in die Vergangenheit zurückzugehen und historische Daten zu korrigieren, idealerweise im Quellsystem.

Option 2: Verbessern Sie die Datenvalidierung und den Prozess der Dateneingabe/-erstellung

Wenn Sie die Quelle eines Datenfehlers identifiziert haben, können Sie den Dateneingabe- oder -erstellungsprozess verbessern, so dass zukünftige Fehler bereits im Vorfeld erkannt und verhindert werden.

Ein modernes Datenqualitätstool (wie z.B. BiG EVAL) sollte es Ihnen ermöglichen, Datenqualitätsregeln aufzurufen, die Validierungsroutinen für die Dateneingabe bereitstellen, mit denen Daten von schlechter Qualität bereits an der Quelle blockiert werden.

Vorteil einer gemeinsam genutzten Regelbibliothek ist, dass jede Regel (z.B. eine Prüfung auf gültige Produktcodes) im gesamten Unternehmen wiederverwendet werden kann, anstatt in jeder einzelnen Anwendung manuell eine eigene Regellogik zu programmieren, was erheblich mehr Entwicklungs- und Wartungsressourcen erfordert.


Auswertung und Planung der Datenqualität

Und schließlich ist Ihr Datenqualitätsteam dafür verantwortlich, tägliche, wöchentliche und monatliche Berichte über den Fortschritt der Datenqualität zu erstellen. Die Berichte müssen auf die verschiedenen Zielgruppen innerhalb der geschäftlichen und technischen Gemeinschaften zugeschnitten sein.

IT-Mitarbeiter, die für die Verwaltung von Datenpipelines in einer Datenanalyseplattform zuständig sind, könnten beispielsweise rund um die Uhr Berichte benötigen, in denen die aktuelle Fehlerrate, die Fehlerquelle und die entsprechenden Faktoren aufgeführt sind, so dass alle Datenverschiebungsaufgaben wiederholt oder neu geplant werden können.

Führungskräfte in Unternehmen sollten einfach nur sehen, dass die Fehlerrate sinkt und der Wert für das Unternehmen steigt.

Einige Tools (wie z.B. BiG EVAL DQM) verfügen bereits über integrierte Management- und technische Berichtsfunktionen. Stellen Sie also sicher, dass die von Ihnen in Betracht gezogene operative Datenqualitätssoftware diese wichtige Aktivität unterstützen kann.

Während der Planung werden Sie Daten aus den Datenqualitätsberichten und der durchgeführten Verbesserungsarbeit erfassen und ermitteln, wo Sie als Nächstes Prioritäten für zukünftige Bewertungs-, Überwachungs- und Verbesserungsaktivitäten setzen sollten.

Ein entscheidender Aspekt der Datenqualitätsplanung ist die Identifizierung kritischer strategischer Ziele oder bekannter „Daten-Hotspots“, bei denen die Bewertung und Verbesserung der Datenqualität sofortige und langfristige Vorteile bringen könnte. Wenn Sie diese Initiative leiten, werden Sie mit einer Kombination aus technischen, operativen und Führungsteams zusammenarbeiten, um herauszufinden, worauf Sie sich als Nächstes konzentrieren sollten, welche Ressourcen erforderlich sind und wie ein wahrscheinlicher Plan für die Umsetzung aussehen würde.


Welche Teamstruktur wird für das Datenqualitätsmanagement benötigt?

Oft wird davon ausgegangen, dass Sie neue Mitarbeiter und Fachkenntnisse einstellen müssen, um Ihr operatives Datenqualitätsmanagement zu erweitern, aber das ist nicht der Fall.

Bei den meisten unserer Kunden, die BiG EVAL zum Testen, Bewerten und Überwachen der Datenqualität einsetzen, konnten sie ihr vorhandenes Personal für alle erforderlichen Datenqualitätsfunktionen einsetzen.

Hier finden Sie eine Übersicht über die erforderlichen Kompetenzen für jede Phase:

Identifizierung und Definition von Datenqualitätsregeln

Hier benötigen Sie wahrscheinlich eine Mischung aus Geschäftsanalysten und Testanalysten, um die Anforderungen an die Datenqualität zu erfassen und sie in Definitionen von Datenqualitätsregeln für Bewertungs- und Überwachungszwecke umzusetzen.

Außerdem können Sie die Unterstützung von Datenanalysten, Datenbankadministratoren und gegebenenfalls Entwicklern/Programmierern in Anspruch nehmen, um zu gewährleisten, dass Sie die betriebliche Datenumgebung vollständig abgebildet und in eine solide Bibliothek von Datenqualitätstestregeln umgesetzt haben.

Bewertung und Überwachung von Datenqualitätsregeln

Jetzt sind Sie auf eine Kombination von Testanalysten angewiesen, um die Regeln auszuführen, die Ergebnisse zu bewerten und die richtige Überwachungsfrequenz für jede Art von Geschäftsanforderungen festzulegen.

Diese Phase ist zwar eher technisch geprägt, aber dennoch werden häufig Geschäftsanwender einbezogen, vor allem weil unsere Technologie für Datenqualitätstests einfacher zu verwenden und zu verwalten ist als die traditionellen techniklastigen Ansätze.

Behebung und Verbesserung von Datenqualitätsmängeln

In diesem Fall würden Sie typischerweise sehen, dass Ihre Testanalysten mit Datenanalysten, Geschäftsanalysten, Geschäftsanwendern und technischen Teams zusammenarbeiten, um die Hauptursache von Problemen zu ermitteln und einen geeigneten Lösungsplan zu erstellen.

Auch dies sind typische Aufgaben in mittelgroßen bis großen Unternehmen mit einer etablierten Daten- und IT-Systemlandschaft.

Auswertung und Planung der Datenqualität

Schließlich würden Sie sehen, wie Ihre Testanalysten vielleicht mit den geschäftlichen oder technischen Communities zusammenarbeiten, um einen geeigneten Satz von Berichten zu erstellen, die die richtige Informationsebene in der richtigen Häufigkeit weitergeben.

Bei BiG EVAL haben wir versucht, diesen Prozess mit vielen vorgefertigten Berichten und Überwachungsstatistiken so schmerzlos wie möglich zu halten, was bedeutet, dass Sie keine Business-Intelligence-Berichtsdesigner und Analysespezialisten benötigen.

In Bezug auf die Planung würde dies, wie bereits erwähnt, typischerweise höheren Führungskräften innerhalb der Organisation zufallen, z. COO/CFO/CMO/CTO zur Zusammenarbeit mit dem Leiter des Datenqualitätsmanagements, um eine Planung und einen Fahrplan für die zukünftige Erweiterung der Datenqualität zu ermitteln.

Wie geht es weiter?

Der Aufbau eines operativen Datenqualitätsprozesses mag als komplexes Unterfangen erscheinen, ist aber recht einfach und etwas, das wir bei Kunden unserer Datenqualitätslösung BiG EVAL schon oft erlebt haben.

Es empfiehlt sich, zunächst einen Bereich auszuwählen, der für das Unternehmen von hohem Wert ist, und mit einer Pilotinitiative zur Demonstration der unmittelbaren und dauerhaften Bedeutung des Schutzes und der Überwachung des Zustands Ihrer kritischen Datenbestände zu beginnen.

Vereinbaren Sie noch heute einen Gesprächstermin, wenn Sie daran interessiert sind, ein Pilotprojekt zur betrieblichen Datenqualität durchzuführen oder mehr über unsere Erfahrung, Technologie und Vorgehensweise in diesem Bereich zu erfahren.

Wir werden vertraulich über Ihre Situation beraten und Ihnen praktische Ratschläge für den Einstieg geben - vereinbaren Sie einen Termin.

Attention Data Architects!

FREE MASTER CLASS

MASTER CLASS

Business Intelligence Architects Secrets

How To Automate Your Data Testing and Fix Errors Within Minutes... 

Without Wasting Time and Money Building Your Own Solution

Do the first step! Get in touch with BiG EVAL...