Unternehmen müssen mit immer mehr Daten umgehen. Das bringt die Digitalisierung mit sich. Während einige davon wenig aussagekräftig sind, haben andere das Potenzial, den Unternehmenserfolg massiv voranzutreiben. Die Herausforderung besteht darin, die eine Datenart von der anderen zu unterscheiden. In diesem Zusammenhang spielt ein Data Lake eine wichtige Rolle. Dieser arbeitet ähnlich wie ein Data Warehouse, setzt jedoch deutlich andere Schwerpunkte und speichert und verarbeitet die Daten anders.
Was ist ein Data Lake?
Ein Data Lake fungiert als Datenspeicher für Rohdaten. Unterschiedliche Quellen können mit dem Data Lake verbunden werden, und ihre Informationen dort ablegen. Die strukturierten und unstrukturierten Datensätze können Unternehmen dann analysieren, um wertvolle Erkenntnisse für ihre Betriebsprozesse zu gewinnen und sinnvolle Entscheidungen zu treffen.
Was macht ein Data Lake?
Ein Data Lake dient zunächst einmal der Speicherung von Daten. Diese können, müssen aber nicht, strukturiert sein. Deswegen ist es Unternehmen möglich, unstrukturierte Daten aus sozialen Netzwerken, Click Streams oder mit dem Internet verbundenen Geräten in einem Data Lake abzuspeichern. Die so gesammelten Rohdaten verbleiben zunächst im Data Lake, bis sie für eine Analyse benötigt werden.
Damit Unternehmen von den Vorteilen eines Data Lakes profitieren, muss dieser bestimmte Funktionen mitbringen. Besonders wichtig ist, dass alle Daten, die dort abgelegt werden, von dem Data Lake erkannt und gespeichert werden können. Das muss unabhängig davon gelten, ob die gewählten Daten strukturiert oder unstrukturiert sind. Außerdem sollte ein Data Lake Frameworks, Datenbanksysteme und Datenbankanwendungen kennen und unterstützen. Nur dann ist die Übertragung und Auswertung der verschiedenen Datensätze möglich.
Ebenfalls von Bedeutung ist der Datenschutz. Abhängig davon, ob die Daten in der Cloud oder auf einem Server abgespeichert werden, müssen sie zuverlässig vor fremden Zugriff geschützt werden. Insbesondere Verschlüsselungen spielen hierbei eine wichtige Rolle. Neben der Sicherung der Daten müssen auch Wiederherstellungsmechanismen etabliert werden. So sind die Daten selbst dann geschützt, wenn sie aufgrund von technischen Fehlern, Hackerangriffen oder anderen Gefahren verloren gehen.
Data Lake vs. Date Warehouse
Data Lake und Data Warehouse verfolgen unterschiedliche Konzepte. Diese betrachten wir uns im Folgenden genauer.
Data Warehouse
Bei einem Data Warehouse müssen die Daten bereits bei der Speicherung strukturiert und sortiert werden. Nur dann ist es möglich, eine Analyse durchzuführen und wichtige Erkenntnisse aus ihnen zu ziehen. Bereits bevor ein Data Warehouse entsteht, wird ein Schema entwickelt, anhand dessen es später arbeitet. Dieses Vorgehen wird als Schema-on-Write bezeichnet. Ein Data Warehouse wird vor allem von Geschäftsanalysten genutzt, um Batch-Berichte und BI-Visualisierungen zu erstellen.
Data Lake
Das Konzept bei einem Data Lake sieht ein anderes Vorgehen vor. Stammen die Daten in einem Data Warehouse vor allem aus Datenbanken, Transaktionssystemen und Anwendungen, so werden sie von einem Data Lake zusätzlich von IOT-Geräten, Websites, sozialen Netzwerken und mobilen Apps gewonnen. Hierbei ist es unerheblich, ob die Daten strukturiert oder unstrukturiert sind, da lediglich die Rohdaten gespeichert werden.
Das Schema für die Analyse wird erst dann erstellt, wenn diese anfällt. Dieses Vorgehen wird als Schema-on-Read bezeichnet. Insbesondere Datenentwickler nutzen Data Lakes für Machine Learning, prädiktive Analysen sowie die Weiterentwicklung von Geschäftsprozessen. Wer das Beste aus beiden Welten will, entscheidet sich für ein Data Lakehouse, eine Kombination aus beiden Ansätzen.
Chancen und Herausforderungen eines Data Lakes
Mit einem Data Lake gehen vielfältige Vor- und Nachteile einher.
Ein wichtiger Vorteil besteht darin, dass die Rohdaten vielfältig und aussagekräftig sind. Somit lassen sich umfangreiche Analysen durchführen, um wichtige Erkenntnisse für das eigene Unternehmen zu gewinnen. Außerdem bietet ein Data Lake viel Platz für die Speicherung von Daten, sodass nahezu alle Quellen damit verknüpft werden können. Hierbei ist es nicht erforderlich, eine Vorauswahl der Daten vorzunehmen, weil diese erst bei der tatsächlichen Analyse erfolgt. Ein Data Lake erfordert zudem vergleichsweise wenig Rechenleistung, wodurch Unternehmen für die Speicherung und Analyse wenig Ressourcen bereitstellen müssen.
Zu den Nachteilen gehört, dass Unternehmen viel Energie in den Datenschutz investieren müssen. Das gilt insbesondere dann, wenn die Daten in der Cloud abgespeichert werden. Um einen Data Lake nutzen zu können, muss daher ein professionelles Datenschutzkonzept erstellt werden. Außerdem ist es wichtig, die Zugriffsrechte auf die Daten genau festzulegen, um einen Missbrauch unwahrscheinlich zu machen. Vor dem ersten Einsatz ist daher eine Menge Bürokratie erforderlich. Ist der Data Lake erst einmal in Verwendung, müssen die implementierten Lösungen nur noch kontrolliert und auf dem neuesten Stand gehalten werden.
Anwendungsbereiche eines Data Lakes
Wenn Unternehmen Produktneuheiten einführen wollen, sind sie daran interessiert, welche Funktionen und Features für die Zielgruppe besonders wichtig sind. Zu diesem Zweck können sie Umfragen oder Gewinnspiele in den sozialen Netzwerken oder auf ihrer Website organisieren. Das Kundenfeedback wird dann aus den unterschiedlichen Kanälen im Data Lake abgelegt und später analysiert und ausgewertet. Hieraus ergeben sich wichtige Erkenntnisse für die Produktentwicklung.
Des Weiteren können Kundendaten genutzt werden, um starke Umsatztreiber von Gelegenheitskäufern zu unterscheiden. Zudem sind über das Internet der Dinge verschiedene Geräte mit dem World Wide Web verbunden und sammeln wertvolle Daten. Diese werden im Data Lake abgespeichert und später ausgewertet. Auch für das Machine Learning und die Entwicklung von Zukunftsprognosen bietet sich ein Data Lake an.
Es gibt verschiedene Lösungen und Anbieter, auf die Unternehmen zurückgreifen können. Besonders beliebt in Sachen Data Lake Architektur ist Hadoop, weil Unternehmen hier ihrer digitalen Infrastruktur treu bleiben können und diese lediglich in die Cloud verlegen. Andere vertrauen bei ihrer Data Lake Architektur auf die Amazon Web Services, die vielfältige Produkte, niedrige Kosten und hohe Sicherheitsstandards zu bieten haben. Der Azure Data Lake zeichnet sich hingegen durch eine einfache Verwaltung, professionelle Analysetools sowie zuverlässige Cloud-Services aus.
Fazit: Den passenden Data Lake für das eigene Unternehmen finden
Digitalisierung wird für Unternehmen immer wichtiger – und damit auch Datenspeicher wie der Data Pool. Für die Speicherung, Analyse und Auswertung von Rohdaten aus ganz unterschiedlichen Quellen bietet sich ein Data Lake an. Um das geeignete Angebot zu finden und anzuwenden, müssen sich Unternehmen zunächst ihren Bedarf bewusst machen. In jedem Fall sollten vielfältige Analysetools und strenge Sicherheitsfeatures in dem jeweiligen Angebot enthalten sein.
Titelbild: Glenn Carstens-Peters / Unsplash