Sicherlich haben Sie schon öfter gelesen oder gehört, dass Daten das Öl der Digitalisierung seien. Doch Daten sind nicht gleich Daten. Erst durch die Erhebung, die Verarbeitung und die Auswertung entdecken Sie Potenziale in den digitalen Informationen. Damit das besser funktioniert, benötigen Sie ein Data Warehouse.
Was ist ein Data Warehouse?
Ein Data Warehouse (abgekürzt DWH oder DW) ist eine physische Sammlung von Daten, die aus verschiedenen, oft uneinheitlichen Datenquellen stammen. Das Data Warehouse speichert die gesammelten Daten und stellt sie nachgelagerten Systemen zur Verfügung.
Was genau bedeutet DW?
Bei einem Data Warehouse handelt es sich getreu der englischen Übersetzung um ein Datenlager. Der Begriff kam in den 1980er-Jahren auf, als Erfinder gilt die Firma IBM. Diese sprach damals von Information Warehouse, woraus dann im Laufe der Jahre das Data Warehouse wurde.
Was unter einem Data Warehouse im Detail zu verstehen ist, darüber diskutieren IT-Fachleute noch heute. Denn es gibt keine klare und allgemeingültige Definition. Der gemeinsame Konsens jedoch lautet, dass ein Data Warehouse eine große „Sammelstelle“ für Daten darstellt, die aus mehreren Datenquellen stammen. Diese werden hier „gelagert“, um sie beispielsweise mit speziellen Systemen zu analysieren.
Von der Datenbank über das Data Warehousing zu Big Data
Was die Beschreibung von Data Warehouses zusätzlich erschwert, ist die Fülle an verwandten Fachbegriffen wie Datenbanken, Data Marts, Data Lakes, Data Mining und Big Data. Hier ein paar Erklärungsansätze:
-
Die Quelle eines Data Warehouse sind verschiedene Datenbanken, in denen die unterschiedlichen Systeme ihre Informationen ablegen.
-
Das Sammeln von Daten aus mehreren, homogenen Quellen in einem großen Datenbanksystem (dem Data Warehouse), die Datenhaltung und die Bereitstellung für weitere Systeme nennt sich Data Warehousing.
-
Bei Data Lakes (übersetzt „Datenseen“) handelt es sich um große Datenmengen, die im Rohdatenformat vorliegen. Diese Daten wurden noch nicht durch Data Warehousing transformiert.
-
Eine Sonderform von Data Lakes sind die Data Swamps („Datensümpfe“). Hier sind Daten mit geringer Qualität oder kaum Wert für Ihr Unternehmen enthalten.
-
Unter Data Mart, dem „Datenmarkt“, versteht man einen Teil des Datenbestandes, der für einen speziellen Verwendungszweck kopiert wird.
-
Beim Data Mining suchen Algorithmen nach Mustern in den Daten, um daraus Erkenntnisse abzuleiten.
-
Durch die Digitalisierung fallen zunehmend gigantische Datenmengen in Unternehmen an. Diese sogenannten Massendaten nennt man Big Data.
-
Um Big Data auswerten zu können, gibt es Big Data Analytics.
DWH Beispiel: Wofür eignet sich ein Data Warehouse?
Wer sind unsere Kunden und Kundinnen? Welche Ansprüche und Herausforderungen haben sie? Wie können interessierte Personen optimal angesprochen und zu Neukunden beziehungsweise Neukundinnen konvertiert werden? Das sind typische Fragen, die Sie im Marketing und Vertrieb wahrscheinlich tagtäglich umtreiben.
Für die Beantwortung der Fragen benötigen Sie viele Informationen – und diese stammen aus zahlreichen Quellen. Diese Quellen sind zunehmend digital und nennen sich beispielsweise CRM und ERP. Zudem kommen sie aus verschiedenen Abteilungen wie Verkauf, Support und Finanzbuchhaltung.
Ein Data Warehouse zieht sich die Daten aus den verschiedenen Systemen, bereitet sie auf, speichert sie ab und stellt sie anderen Systemen wiederum zur Verfügung. Derart können Sie genaue Profile Ihrer Kundschaft erstellen und Ihre Marketing-, Vertriebs- und Kundenbetreuungsmaßnahmen verbessern.
Wie arbeitet ein DWH?
Ein Data Warehouse lässt sich sehr gut mit einem echten Warenlager vergleichen. Denn auch hier gibt es im übertragenen Sinn einen Wareneingang, das eigentliche Lager und den Warenausgang. Im Detail bedeutet das für ein Data Warehouse:
Das Data Warehouse beschafft sich Daten aus verschiedenen, externen Quellen. Da die Daten aus unterschiedlichen Datenbanken und Systemen stammen, sind sie nicht einheitlich strukturiert. Daher erfolgt ein ETL-Prozess. ETL steht für:
-
Extraktion: Das Data Warehouse zieht sich Daten aus verschiedenen Quellen.
-
Transformation: Die homogenen Daten werden in ein einheitliches Format gebracht.
-
Laden: Das Data Warehouse lädt die transformierten Daten in seine Datenbanken.
Sind die Daten im Data Warehouse, sind sie wie bei der echten Lagerhaltung langfristig abgelegt. Nun können sich verschiedene nachgelagerte Systeme die gesamten Daten oder einen Ausschnitt davon herausnehmen. Oder sie legen Kopien bestimmter Datenbestände an, woraus die Data Marts entstehen.
Um Muster in den teils großen Datenmengen eines DWH zu finden, kommt das Data Mining zum Einsatz. Zudem dienen die Data Warehouses als Grundlage für das OLAP, dem Online Analytical Processing. Und die OLAP-Systeme sind die Basis für eine BI-Analyse (Business Intelligence).
Was beim Einsatz von Data-Warehouse-Systemen wichtig ist
Das Data Warehousing und die nachgelagerten Prozesse (beispielsweise BI-Analysen) können nur gelingen, wenn der Datenbestand „sauber“ ausfällt. Es ist daher wichtig, die Datenquellen sinnvoll auszuwählen und ihre Qualität zu überprüfen. Data Swamps (schlecht designte, unzureichende Dokumente) sind beispielsweise eine schlechte Grundlage für eine ordentliche Datenhaltung und spätere Datenverarbeitung.
Damit Sie eine ordentliche Datengrundlage haben, sollten Sie die Quellen und die Datensätze regelmäßig checken. Ansonsten sammeln sich schnell schlechte Datenmengen an, die am Ende zu fehlerhaften Analysen führen. Zudem müssen Sie ein sinnvolles Konzept für die Architektur Ihres DWH-Systems erarbeiten. Dieses hat zu Ihrem Unternehmen und seinen zahlreichen Datenbeständen zu passen.
Und: Jede Analyse und jede Software ist am Ende nur so gut wie sein Anwender oder seine Anwenderin. Deshalb sollten Sie alle Nutzer und Nutzerinnen entsprechend schulen sowie ständig fortbilden. So können Sie falsche Entscheidungen oder Ressourcenverschwendung reduzieren.
DWH und die digitale Transformation Ihrer Prozesse
Nimmt Ihr Unternehmen die Digitalisierung ernst, durchläuft es eine sogenannte digitale Transformation. Dazu gehört unter anderem, dass Sie und Ihre Kollegen sowie Kolleginnen Entscheidungen nicht aus dem Bauch heraus treffen, sondern auf Basis von durchdachten Analysen. Für diese Analysen benötigen Sie valide Daten, die unter anderem in einem Data Warehouse aggregiert und zur Verfügung gestellt werden.
Titelbild: Laurence Dutton / iStock / Getty Images Plus