Wer bei Clustering an Schubladen denkt, der liegt gar nicht so falsch. Dennoch ist die Methode weitaus positiver behaftet, als es der erste Blick erscheinen lässt. Mithilfe der Clusteranalyse verschaffen sich Unternehmen einen echten Wettbewerbsvorteil, da sie ganz genau wissen, wer ihre Kunden und Kundinnen sind und wodurch sie sich von anderen unterscheiden.
In diesem Artikel erfahren Sie, welche Voraussetzungen erfüllt sein müssen, damit Sie eine Clusteranalyse durchführen können, und welche unterschiedlichen Methoden in dem Verfahren Anwendung finden.
Was ist eine Clusteranalyse?
Die Clusteranalyse ist ein exploratives, statistisches Verfahren, das Datensätze in homogene Gruppen unterteilt. Dafür werden ähnliche Merkmale herangezogen, um die Daten zu gruppieren (Clustering). Die verschiedenen Cluster einer Analyse sollen sich hingegen voneinander unterscheiden.
Diese Voraussetzungen für eine Clusteranalyse müssen erfüllt sein
Die wichtigste Prämisse der Clusteranalyse ist, dass die einzelnen Cluster möglichst homogen sind, während sich die Cluster untereinander stark voneinander differenzieren. Dazu sind folgende Voraussetzungen notwendig:
- Datenmenge: Eine valide Aussage der Clusteranalyse kann nur dann getroffen werden, wenn überhaupt eine ausreichend große Datenmenge vorhanden ist.
- Bereinigen der Daten: Liegen große Unterschiede zwischen den einzelnen Objekten vor, so muss zunächst eine Normierung der Daten stattfinden.
- Ausreißer: Liegen erhebliche Werteunterschiede vor (sogenannte Ausreißer), werden diese durch die Z-Transformation eliminiert.
- Verzerren: Auch eine zu enge Korrelation zwischen den Werten sollte beseitigt werden, damit in der Analyse keine Verzerrung entsteht.
So verläuft eine Clusteranalyse
Um die Untersuchungsobjekte einer Clusteranalyse genauer zu analysieren, müssen zunächst einmal die entsprechenden Merkmale gefunden werden. Dabei können die Ähnlichkeiten der Daten innerhalb eines Clusters Personen, Gegenstände, Organisationen oder sogar Länder umfassen. Wichtig ist, dass sich die Objekte eines Clusters in einer Eigenschaft (beispielsweise Alter, Preis, Geschlecht) ähnlich sind.
Sind die Voraussetzungen der Clusteranalyse erfüllt, dann befolgen Sie die folgenden beiden Schritte:
Schritt 1: Parameter fürs Clustering definieren
Wie Objekte zu einem Cluster geordnet werden, hängt zunächst von der Bestimmung des Proximitätsmaßes ab. Dabei kann zwischen den Merkmalen Ähnlichkeit oder Distanz gewählt werden. Das Ähnlichkeitsmaß kann durch unterschiedliche Berechnungen erfolgen. Beispiele sind:
- Euklidische Distanz
- Tanimoto-Index
- M-Koeffizient
Nach der Berechnung des Proximitätsmaßes wird das Cluster durch einen Clustering-Algorithmus in die tatsächliche Gruppe eingeordnet. Welcher Algorithmus verwendet werden kann, hängt vom Datensatz und der gestellten Frage an die Analyse ab. Im weiteren Verlauf dieses Artikels werden drei unterschiedliche Arten der Clusteranalyse noch genauer vorgestellt.
Der letzte zu bestimmende Parameter ist die Anzahl der Cluster. Da einige Statistikprogramme limitiert sind in ihren Durchführungen, ist es wichtig, im Vorhinein zu wissen, wie viele Cluster die Analyse haben soll.
Schritt 2: Clusteranalyse-Interpretation durchführen
Anschließend werden Clusteranalysen in der Regel in Streudiagrammen ausgewertet. Besonders leicht geht das mit der Verwendung einer Statistiksoftware wie beispielsweise SPSS. Neben dem Diagramm gibt das Tool weitere Daten wie den Mittelwert der Cluster aus. Durch die ANOVA-Varianzanalyse können die Werte auf signifikante Unterschiede untersucht werden.
Die unterschiedlichen Methoden der Clusteranalyse
Für die Auswahl des Clusteranalysen-Algorithmus stehen eine Vielzahl unterschiedlicher Methoden zur Verfügung. Dabei wird zunächst in hierarchische und nicht-hierarchische Analysen unterschieden.
1. Hierarchische Clusteranalyse
Hierarchische Analysen sind unterteilt in agglomerative und divisive Methoden. Während divisive Verfahren top-down arbeiten, gehen agglomerative Verfahren bottom-up vor. Innerhalb der agglomerativen Methode lassen sich Clustergruppen in zwei verschiedene Vorgehensweisen gruppieren:
- Linkage-Methoden: Diese Methode wird genutzt, wenn die Distanz zweier Elemente minimal sein soll. Folgende Verfahren sind möglich: nächstgelegener Nachbar, entferntester Nachbar und Linkage zwischen den Gruppen.
- Varianz-Methoden: Dieses Verfahren wird verwendet, wenn die Distanz zwischen zwei Elementen maximal sein soll. Am häufigsten verwendet wird die Ward-Methode.
2. K-Means-Clusteranalyse
Die K-Means-Clusteranalyse basiert auf dem gleichnamigen Algorithmus. Sie gehört zu den partitionierenden Analysen, was bedeutet, dass die Datensätze nicht grundsätzlich neu gruppiert, sondern lediglich verbessert werden sollen.
Der K-Means-Algorithmus geht iterativ vor. Ausgangssituation ist eine vorgegebene Anzahl von Clustern, die anschließend mit Daten befüllt werden. Dabei werden in jedem Iterationsschritt neue Clusterzentren und die jeweiligen Daten, die dem Zentrum am ähnlichsten sind, bestimmt. Herangezogen wird dazu die euklidische Distanz. Ist diese gering zum Clusterzentrum, wird der Datensatz zum Cluster zugeordnet.
3. Two-Step-Clusteranalyse
Die Two-Step-Clusteranalyse (auch: Two-Stage-Clusteranalyse) vereint die beiden vorangegangenen Methoden miteinander. Im ersten Schritt wird folglich eine hierarchische Clusteranalyse durchgeführt, um den Datensatz zunächst in Cluster einzuteilen. Mithilfe des K-Means-Algorithmus wird im Anschluss eine Optimierung der Cluster durch iterative Schleifen erzielt.
Clusteranalyse: Beispiel für die Verwendung
Im Marketing, der Medizin, der Psychologie und in der Erdsystemforschung: Clusteranalysen finden in vielen Anwendungsgebieten Einsatz. Weil die Objekte der Analyse sehr variabel ausfallen können, ist die statistische Methode das gängige Mittel in vielen Bereichen. Immer dann, wenn Daten einer Gruppe zugeordnet werden können, sollte die Clusteranalyse in Betracht gezogen werden.
Im Folgenden stellen wir Ihnen ein Beispiel für die Anwendung im Marketing vor.
Welche Methode der Clusteranalyse genutzt wird, hängt von der Fragestellung ab, die damit untersucht werden soll. Im Marketing wird die Clusteranalyse beispielsweise verwendet, um Werbestrategien auf die einzelnen Personengruppen des Kundenstamms zuzuschneiden. Dazu werden die Personen in unterschiedliche Zielgruppen geordnet. Beispielhafte Merkmale, die eine Distanz oder Ähnlichkeit aufweisen, sind Alter, Geschlecht, Kaufkraft, Beruf oder Generation.
Die Fragestellung einer solchen Marketing-Clusteranalyse könnte zum Beispiel wie folgt lauten: Gibt es verschiedene Zielgruppen in unserem Kundenstamm? Wenn ja, wodurch definieren sie sich?
Indem Sie Ihren Kundenstamm nun durch eine hierarchische und anschließende K-Means-Methode gruppieren, finden Sie heraus, dass es verschiedene Arten von Käufern und Käuferinnen innerhalb Ihrer Zielgruppe gibt. Durch die Analyse haben Sie die Möglichkeit, Werbeangebote und Ihre Marketingstrategie ganz gezielt auf die verschiedenen Cluster auszurichten.
Fazit: Clustering optimiert Ihre Marketingmaßnahmen
Um Ihre Marketingstrategie genau auf Ihre Zielgruppe zuzuschneiden, müssen Sie erst einmal herausfinden, welche Arten von Personen es in Ihrem Kundenstamm gibt. Die Clusteranalyse hilft Ihnen dabei, Zielpersonen zu gruppieren und genau herauszustellen, wodurch sie sich von anderen unterscheiden. Genau so funktioniert eine kundenorientierte Ausrichtung.
Titelbild: ArLawKa AungTun / iStock / Getty Images Plus