Wäre es nicht schön, aus dem Verhalten der eigenen Kundschaft automatisiert Prognosen über die Kundenwünsche der Zukunft erstellen zu können? Dank Data Mining muss das kein Traum mehr bleiben. Denn mit Data Mining (deutsch: „Daten fördern/graben“) sind Sie der eigenen Zielgruppe immer einen Schritt voraus. Wir zeigen Ihnen, was genau es damit auf sich hat, für welche Zwecke Sie es nutzen können und welche Chancen und Gefahren mit Data Mining verbunden sind.
Inhalt
Was ist Data Mining?
Data Mining ist die computergestützte Analyse großer Datenmengen mit dem Ziel, Muster darin zu erkennen und darauf basierend Hypothesen aufzustellen. Es hilft dabei, Datensätze effizient auszuwerten und daraus möglichst viele Erkenntnisse zu gewinnen. Unternehmen nutzen Data Mining zum Beispiel zur Marktsegmentierung oder bei Warenkorb-Analysen.
Mittlerweile handelt es sich um ein überaus dynamisches und breites Forschungsfeld. Die ursprüngliche Data-Mining-Definition umfasste vor allem den Einsatz von Algorithmen aus der Statistik oder Mathematik zur Mustererkennung in riesigen Datenbeständen. Heute zählen auch Künstliche Intelligenz und Machine Learning mit dazu.
Wie funktioniert Data Mining?
Das gesamte Analyseverfahren beruht auf einer systematischen Anwendung verschiedener statistischer Methoden. Wenn wir jedoch den Begriff Data Mining nutzen, meinen wir meist den gesamten Prozess der Knowledge Discovery in Databases (KDD), auf Deutsch „Wissensentdeckung in Datenbanken“.
Tatsächlich macht das eigentliche Data Mining der Definition nach lediglich einen Teilschritt einer solchen Untersuchung großer Datenmengen aus. Der KDD- oder Data-Mining-Prozess umfasst folgende Schritte:
- Fokussierung: Auf Basis des erforderlichen Hintergrundwissens werden die Ziele der Datenanalyse festgelegt.
- Vorbereitung: Die konkreten Datenbestände werden ausgewählt und bereinigt.
- Transformation: Ein passendes Modell für die Analyse wird hergestellt, in welchem die Erkenntnisse der Untersuchung repräsentiert werden können.
- Data Mining: Die tatsächliche Analyse der großen Datenbestände – also das eigentliche Data Mining – erfolgt erst nach den genannten Schritten. Hierbei werden unterschiedliche Softwares und Methoden eingesetzt.
- Interpretation: Expertinnen und Experten evaluieren und interpretieren die Data-Mining-Ergebnissen und identifizierten Muster und Zusammenhänge.
Was ist der Unterschied zwischen Data Mining und KDD?
Anhand des aufgelisteten Prozesses lässt sich der Unterschied zwischen Data Mining und KDD gut verdeutlichen: KDD bezieht sich auf den gesamten Prozess der Gewinnung von Wissen aus großen Datenbeständen und somit auf sämtliche der genannten Schritte. Data Mining wiederum beschäftigt sich streng genommen lediglich mit der Analyse und Bewertung der Datensätze.
Data Mining stellt also einen Teilschritt innerhalb des KDD-Prozesses dar. In der Praxis werden die beiden Begrifflichkeiten dennoch oft synonym verwendet.
Was ist das Ziel von Data Mining?
Generell geht es beim Data Mining um das Identifizieren bestimmter Muster und Zusammenhänge, auf deren Basis Rückschlüsse auf Trends und zukünftiges Konsumverhalten oder Entwicklungen bestimmter Märkte möglich sind. Unternehmen versuchen mithilfe der Auswertung großer Datenbestände ihre Zielgruppe und Bedürfnisse besser kennenzulernen, um auf diese in Zukunft eingehen zu können.
Faktisch gibt es für Data Mining Anwendungsfälle in unzähligen Bereichen, wobei sich hier die konkreten Ziele voneinander unterscheiden. So lassen sich mit Data Mining zum Beispiel im Online-Handel passende Produktvorschläge für bestimmte Zielgruppen ermitteln oder Websites entsprechend optimieren.
Darüberhinaus kann Data Mining Aufgaben in weiteren Teilbereichen des Marketings übernehmen. Beispielsweise zählt das Ermitteln relevanter Keywords im SEO-Marketing dazu. Aber auch Banken greifen bei der Identifizierung von Kreditrisiken beispielsweise auf die Erkenntnisse von Data Mining und Big Data zurück.
Vorteile von Data Mining
Data Mining ermöglicht es Unternehmen, nützliche Muster in Datensätzen zu identifizieren und auf Grundlage dieser verkaufsfördernde Entscheidungen zu treffen. In der Regel geht es hier um große Datenmengen, die ein Mensch niemals allein bewältigen könnte, die aber voll wertvoller Informationen sind. Durch Data Mining können Sie:
- die Probleme, Wünsche und Bedürfnisse Ihrer Kundschaft leichter erkennen,
- Trends frühzeitig bemerken und Zukunftsprognosen ableiten,
- Zusammenhänge zwischen bestimmten Verkaufsmaßnahmen, Kaufverhalten und tatsächlichen Verkäufen erkennen,
- fundierter über neue Angebote und die damit einhergehenden Verkaufsstrategien entscheiden,
- Prozesse innerhalb des Unternehmens verbessern,
- Mitarbeitende besser schulen sowie auf Verkaufsgespräche mit der Kundschaft vorbereiten und
- rechtzeitig Strategien für sich abzeichnende Schwierigkeiten entwickeln.
Schöpfen Sie mit Data Mining diese Vorteile voll aus, lassen sich Kosten sparen und gleichzeitig der Umsatz steigern.
Nachteile von Data Mining
Wie bereits erwähnt geht es um die Analyse riesiger Datenmengen, die kaum von Menschen bewerkstelligt werden könnte. Aus diesem Grund findet Data Mining zwangsläufig computerbasiert statt. Dabei werden Methoden aus der Statistik und Informatik kombiniert. Häufig wird mit Künstlicher Intelligenz und Machine Learning gearbeitet.
Diese Technologien haben in den vergangenen Jahren große Fortschritte gemacht. Dennoch sind sie noch lange nicht perfekt und es kann durchaus zu Fehlern kommen. Sich allein auf die Ergebnisse des Data Minings zu verlassen, kann deshalb wie bei beinahe allen Digitalisierungsvorgängen ein Risiko darstellen. Die eigenen Erfahrungen, von Menschenhand geprüfte Informationen und den gesunden Menschenverstand sollten Sie bei Entscheidungen daher keinesfalls außer Acht lassen.
Ähnliches lässt sich mit einem Blick auf die Qualität der analysierten Daten konstatieren. Sind Datensätze fehlerhaft oder unvollständig, sind die Ergebnisse wenig bis gar nicht aussagekräftig.
Ein weiterer wichtiger Nachteil von Data Mining: Wer über Daten verfügt, trägt auch Verantwortung. Das bedeutet, Sie müssen sorgfältig alle Datenschutzbestimmungen einhalten und die Datensätze vor Angriffen schützen. Das ist mit zusätzlichem Aufwand und Kosten verbunden, die möglicherweise an anderer Stelle fehlen.
Welche Data-Mining-Verfahren gibt es?
Die wichtigsten Data-Mining-Verfahren sind Klassifikation, Prognose, Gruppierung, Clustering und Abhängigkeitsentdeckung. Häufig wird eine Kombination aus mehreren Verfahren eingesetzt, um aussagekräftige Erkenntnisse zu gewinnen. Welche Data-Mining-Methoden konkret zum Einsatz kommen, unterscheidet sich von Anwendungsfall zu Anwendungsfall.
Darüber hinaus gibt es drei Arten von Data Analytics bzw. Data-Mining-Arten: die deskriptive, prädiktive und präskriptive Analyse von Daten. Von Interesse sind insbesondere die beiden letztgenannten Verfahren. Predictive Analytics Data Mining, also die prädiktive Analyse, findet eine Antwort auf die Frage „Was passiert als Nächstes?“, während die präskriptive Analyse die Frage „Was tun wir jetzt am besten?“ beantwortet.
Klassifikation
Bei dieser Methode werden zuerst Klassen festgelegt, denen die Daten später zugeordnet werden sollen. Die Klassen richten sich nach Ihrem Erkenntnisinteresse. Wollen Sie beispielsweise herausfinden, welche Kundschaft ein Verkaufsgespräch vereinbart hat und welche nicht, würde eine Klasse die Personen umfassen, die einen Termin gebucht haben. Eine zweite Kategorie müssten Sie für die Menschen anlegen, die nicht über das Angebot sprechen wollten.
Dieses Anwendungsbeispiel ist natürlich stark vereinfacht – es kann weit mehr und differenziertere Klassen geben. Es könnte etwa noch zwei weitere Klassen geben, die sich danach richten, ob jemand im Verkaufsgespräch etwas gekauft hat oder nicht.
Nachdem die Kategorien feststehen, werden die untersuchten Objekte (in dem Fall die Kundschaft bzw. an Ihren Produkten oder Leistungen interessierte Menschen) analysiert und den Klassen zugeordnet.
Der Algorithmus kann die Gruppen dabei kennenlernen, Zusammenhänge und Unterschiede zwischen verschiedenen Zielgruppen finden und auf dieser Grundlage später Prognosen stellen.
Prognose
Die Prognose ist eine Methode, die genaue Zahlen vorhersagen soll. Sie ermöglicht es zum Beispiel, anhand des Verhaltens der Kundschaft in den vergangenen Monaten den Umsatz für das nächste Jahr zu berechnen oder den Customer Lifetime Value vorauszusehen. Das bedeutet, dass der Algorithmus bei der Analyse der Datensätze von Kundinnen und Kunden intensiv auf Zusammenhänge und Muster achtet.
Gruppierung
Diese Methode ist ebenfalls unter den Begriffen Clustering und Segmentierung bekannt. Sie wird eingesetzt, um Gruppen innerhalb der Datenbasis zu identifizieren. Diese sind deutlich homogener als die Kategorien der Klassifizierungs-Methode. Das liegt mitunter daran, dass sie nicht vorab festgelegt und dann befüllt werden, sondern andersherum: Der Algorithmus durchleuchtet die Daten ohne Vorannahmen und bildet daraus Segmente.
Die Methode ist vor allem im Marketingbereich beliebt, weil sie es zum Beispiel ermöglicht, Kampagnen genauer zu targetieren. Auch im Bereich Sales kann sie nützlich sein.
Clustering
Grundsätzlich handelt es sich bei dieser Methode des Data Mining, dem Clustering, um eine Form der Gruppierung. Dabei werden mehrere Messwerte in Clustern zusammengefasst, die in einem ähnlichen Bereich angesiedelt sind.
Besonders spannend für die konkrete Analyse sind die sogenannten „Ausreißer“, die keinem Cluster zugeordnet werden können. Diese müssen manuell identifiziert werden. Von Interesse ist hier insbesondere die Frage, warum es zu derartigen Abweichungen kommt.
Abhängigkeitsentdeckung
Bei der Abhängigkeitsentdeckung geht es darum, die Beziehungen zwischen einzelnen Personen und Objekten zu verstehen. Der Algorithmus versucht, Abhängigkeiten und Gemeinsamkeiten zu entdecken. Auf diesem Prinzip beruhen zum Beispiel E-Commerce Funktionen wie „Personen, die Produkt A bestellten, interessierten sich auch für Produkt B“ in Online-Shops.
Data Mining vs. Machine Learning
Aufmerksame Lesende haben bemerkt, dass der Begriff Machine Learning inzwischen bereits öfter verwendet wurde. Doch wo liegt eigentlich der Unterschied zum Data Mining?
Grundlegend gilt: Data Mining und Machine Learning sind zwei miteinander verwandte Konzepte, die beide auf Basis von Datenbeständen arbeiten und auf ähnliche Methoden und Algorithmen zurückgreifen.
Allerdings geht es beim Data Mining darum, Muster aus vorhandenen Datensätzen zu erkennen und auf Grundlage dessen Informationen zu gewinnen. Es handelt sich um eine gezielte Forschungsaktivität, die menschlichen Einsatz erfordert.
Maschinelles Lernen nutzt hingegen Algorithmen, um Computer selbst zu befähigen, aus Datensätzen zu lernen und automatisierte Entscheidungen zu treffen. Ziel dabei ist es also nicht nur, Daten auszuwerten, sondern Computer und Algorithmen ohne menschliche Eingriffe fortlaufend weiterzuentwickeln.
Ist Data Mining illegal?
Data Mining per se ist nicht illegal. Allerdings kann es bei unachtsamem Gebrauch zu einer Verletzung individueller Datenschutzrechte kommen. In der EU bildet seit 2018 die DSGVO (Datenschutz-Grundverordnung) den rechtlichen Rahmen für den Umgang mit personenbezogenen Daten.
Demnach haben Einzelpersonen stets das Recht zu wissen, welche Daten über sie erhoben werden. Überdies bedarf die Speicherung personenbezogener Daten ihrer Zustimmung, welche sie jederzeit widerrufen können. Unternehmen, die gegen die DSGVO verstoßen, haben schlimmstenfalls mit massiven Geldstrafen zu rechnen.
Deshalb ist ein verantwortungsvoller und transparenter Umgang mit Big Data besonders wichtig, um beim Data Mining Probleme rechtlicher Natur zu vermeiden. Im Hinblick auf den Umgang mit personenbezogenen Daten spielt der Aspekt der Datensicherheit eine wesentliche Rolle.
Data-Mining-Software für Ihr Unternehmen
Wollen Sie Data Mining für Ihr Unternehmen nutzen, haben Sie die Wahl zwischen vielen verschiedenen Software-Lösungen. Drei der bekanntesten Data-Mining-Tools möchten wir Ihnen kurz vorstellen:
KNIME
KNIME ist vor allem wegen seiner vergleichsweise intuitiven Nutzeroberfläche beliebt. Die Daten werden nicht nur als Zahlen oder in Tabellen ausgegeben, Sie können sie auch direkt ansprechend visualisieren, zum Beispiel in Fluss- oder Balkendiagrammen.
Die Analytics-Plattform ist als Open-Source-Software kostenlos nutzbar. Für weiterführende Funktionen, wie etwa die Einrichtung von Automatisierungen oder die Nutzung als Team, gibt es zudem eine kostenpflichtige Variante.
Rapidminer
Rapidminer wurde 2001 an der Technischen Universität Dortmund entwickelt und zunächst vor allem für wissenschaftliche Zwecke genutzt. Mittlerweile greifen aber auch Unternehmen darauf zurück. Auch dieses Tool macht es Ihnen leicht, alle Daten in Diagramm-Form darzustellen. Rapidminer ist kostenpflichtig – je nach den von Ihnen gewünschten Funktionen können Sie es aber fünf bis 30 Tage lang gratis testen.
SAS
SAS zählt zu den teuersten und gleichzeitig umfangreichsten Data-Mining-Softwares. Sie wird primär von großen Unternehmen eingesetzt, die gigantische Datenmengen zu verarbeiten haben. Die große Stärke des Programms liegt im Erstellen von Prognosen.
Orange
Die freie Software Orange wurde ursprünglich in C++ geschrieben und erweiterte auf Data Mining mit Python als Zugriffssprache. Maßgeblich ist sie für ihre ansprechend gestalteten Datenvisualisierungen bekannt. Ein Vorteil von Orange ist ferner, dass zahlreiche Online-Tutorials für dieses Data-Mining-Tool zur Verfügung stehen.
Fazit: Großes Potenzial für große Unternehmen
Data Mining ist hervorragend geeignet, um die eigene Zielgruppe besser kennenzulernen, Vorhersagen über die Entwicklung von Bedürfnissen, Verhaltensweisen, Customer Lifetime Value und den Umsatz zu treffen und datengestützte Entscheidungen für die Zukunft zu fällen. Es unterstützt Unternehmen dadurch auf vielen unterschiedlichen Ebenen, wie etwa im Customer-Relationship-Management oder bei verschiedensten Marketingmaßnahmen.
Voraussetzung dafür ist, dass Sie Zugriff auf eine gewisse Grundmasse von Daten haben. Data Mining ist daher eher ein Thema für große Konzerne oder schnell wachsende Start-ups als für kleinere Unternehmen.
Wichtig ist zudem, dass Sie sich bei Entscheidungen nicht ausschließlich auf die Ergebnisse des Data Minings verlassen. Diese sind abhängig von der Qualität der Ausgangsdaten und der korrekten Funktionsweise der eingesetzten Software. Computern können Fehler unterlaufen, die verheerende Auswirkungen für Unternehmen haben können. Nutzen Sie Data Mining daher als eine Quelle für Informationen, aber niemals als alleinigen Maßstab.
Titelbild: gremlin / iStock / Getty Images Plus