Jak dobrać liczbę klastrów i ocenić jakość klasteryzacji?

24.06.2026
Jak dobrać liczbę klastrów i ocenić jakość klasteryzacji?
Przygotowanie danych do klasteryzacji
Metoda łokcia
Współczynnik silhouette
Statystyka Gap
Indeks Calińskiego-Harabasza
Indeks Daviesa-Bouldina
Ocena stabilności klastrów
Jak wybrać ostateczne rozwiązanie?
Interpretacja otrzymanych klastrów
Podsumowanie

Klasteryzacja, nazywana również analizą skupień, obejmuje metody służące do dzielenia obserwacji na grupy złożone z obiektów podobnych do siebie. Celem analizy jest uzyskanie takich klastrów, aby podobieństwo obiektów należących do tej samej grupy było możliwie duże, natomiast różnice pomiędzy poszczególnymi grupami - możliwie wyraźne.

W przeciwieństwie do metod klasyfikacji klasteryzacja najczęściej przeprowadzana jest bez znajomości prawidłowych etykiet grup. Oznacza to, że badacz nie wie z góry, ile klastrów rzeczywiście znajduje się w danych ani czy otrzymany podział odpowiada strukturze istotnej z punktu widzenia badanego zagadnienia.

Wybór liczby klastrów jest szczególnie ważny w metodach takich jak k-średnich, w których liczba grup musi zostać określona przed rozpoczęciem analizy. W hierarchicznej analizie skupień liczba grup może zostać ustalona poprzez wybór poziomu odcięcia dendrogramu. Z kolei w metodach takich jak DBSCAN liczba klastrów stanowi wynik działania algorytmu, lecz zależy od wartości innych parametrów.

 

Przygotowanie danych do klasteryzacji

Przed rozpoczęciem analizy należy określić, które zmienne powinny wpływać na tworzenie klastrów. Uwzględnienie zmiennych niezwiązanych z celem badania może prowadzić do powstania grup trudnych do interpretacji lub pozbawionych znaczenia praktycznego.

W metodach opartych na odległościach istotna jest również skala pomiaru zmiennych. Jeżeli jedna zmienna przyjmuje wartości od 0 do 1, a inna od 0 do 10 000, druga z nich może niemal całkowicie zdominować obliczaną odległość. Z tego względu zmienne ilościowe często poddaje się standaryzacji.

Należy także zwrócić uwagę na:

  • braki danych,
  • obserwacje odstające,
  • silnie skorelowane zmienne,
  • dobór miary odległości do rodzaju danych,
  • obecność zmiennych jakościowych i ilościowych w jednym zbiorze.

Dla zmiennych ilościowych często stosowana jest odległość euklidesowa. Nie powinna być ona jednak automatycznie wykorzystywana w przypadku danych jakościowych. Przy danych mieszanych można rozważyć między innymi odległość Gowera oraz metody takie jak PAM (Partitioning Around Medoids) albo wcześniejszą redukcję wymiaru z wykorzystaniem FAMD (Factor Analysis of Mixed Data).

 

Metoda łokcia

Jednym z najprostszych sposobów doboru liczby klastrów jest metoda łokcia. Polega ona na wielokrotnym przeprowadzeniu klasteryzacji dla różnej liczby grup, a następnie porównaniu wewnątrzklastrowej sumy kwadratów, określanej również jako WCSS lub inertia.

Wraz ze wzrostem liczby klastrów wartość WCSS maleje. Jest to naturalne, ponieważ podzielenie obserwacji na większą liczbę grup pozwala uzyskać bardziej jednorodne skupienia. Nie można więc po prostu wybrać rozwiązania o najniższej wartości WCSS.

Na wykresie poszukuje się miejsca, od którego zwiększanie liczby klastrów przestaje przynosić wyraźną poprawę. Punkt ten swoim kształtem może przypominać zgięcie ręki, stąd nazwa metody.

Zaletą metody łokcia jest prostota i łatwość interpretacji. Jej ograniczeniem jest natomiast subiektywność – w wielu zbiorach danych wykres nie zawiera jednego wyraźnego punktu załamania.

Statystyka AZ

 

Współczynnik silhouette

Współczynnik silhouette uwzględnia zarówno zwartość klastrów, jak i stopień ich odseparowania.

Dla każdej obserwacji obliczane są:

  • średnia odległość od pozostałych obiektów należących do tego samego klastra, oznaczana jako Statystyka AZ;
  • najmniejsza średnia odległość od obiektów należących do innego klastra, oznaczana jako Statystyka AZ.

Wartość współczynnika dla obserwacji można wyrazić wzorem:

Statystyka AZ

Współczynnik przyjmuje wartości od -1 do 1. Wartość bliska 1 wskazuje, że obserwacja jest dobrze dopasowana do własnego klastra i jednocześnie wyraźnie oddzielona od pozostałych grup. Wartość bliska 0 może oznaczać, że obserwacja znajduje się na granicy dwóch klastrów. Wartość ujemna sugeruje natomiast, że obiekt może być bardziej podobny do innego klastra niż do grupy, do której został przypisany.

W celu wyboru liczby klastrów analizę przeprowadza się dla kolejnych wartości Statystyka AZ, a następnie dla każdego rozwiązania oblicza się średnią wartość silhouette ze wszystkich obserwacji. Zwykle preferowane jest rozwiązanie, dla którego średnia wartość współczynnika jest najwyższa.

Na przedstawionym wykresie najwyższą średnią wartość silhouette uzyskano dla dwóch klastrów. Oznacza to, że spośród porównywanych rozwiązań podział na dwie grupy zapewnia najlepsze połączenie zwartości klastrów i ich wzajemnego odseparowania.

Wybór liczby klastrów nie powinien jednak opierać się wyłącznie na jednym wskaźniku. Należy również uwzględnić wyniki innych metod, stabilność rozwiązania oraz możliwość merytorycznej interpretacji otrzymanych grup.

Statystyka AZ

 

Statystyka Gap

Statystyka Gap porównuje zwartość klastrów otrzymanych w analizowanym zbiorze z wynikami, których można byłoby oczekiwać dla danych pozbawionych wyraźnej struktury skupień.

Dla każdej rozważanej liczby klastrów generowane są zbiory referencyjne, a następnie porównywana jest wewnątrzklastrowa zmienność danych rzeczywistych i symulowanych. Duża wartość statystyki Gap wskazuje, że otrzymana struktura skupień jest wyraźniejsza niż struktura powstająca przypadkowo.

Metoda może być stosowana między innymi w połączeniu z metodą k-średnich i hierarchiczną analizą skupień. Jej wadą jest większa złożoność obliczeniowa, ponieważ wymaga wielokrotnego generowania zbiorów referencyjnych i ponownego przeprowadzania klasteryzacji.

 

Indeks Calińskiego-Harabasza

Indeks Calińskiego-Harabasza porównuje zróżnicowanie pomiędzy klastrami ze zróżnicowaniem występującym wewnątrz klastrów. Preferowane są rozwiązania, w których klastry są zwarte, a ich środki znajdują się daleko od siebie.

Wyższa wartość indeksu wskazuje na lepszy podział danych. Wskaźnik może być wykorzystywany do porównania rozwiązań otrzymanych dla różnych wartości liczby klastrów.

 

Indeks Daviesa-Bouldina

Indeks Daviesa-Bouldina ocenia podobieństwo każdego klastra do najbardziej zbliżonego do niego innego klastra. Uwzględnia przy tym rozproszenie obserwacji wewnątrz grup oraz odległości pomiędzy klastrami.

W przeciwieństwie do współczynnika silhouette i indeksu Calińskiego-Harabasza w przypadku indeksu Daviesa-Bouldina preferowane są wartości niższe. Niska wartość oznacza, że klastry są stosunkowo zwarte i dobrze odseparowane.

 

Ocena stabilności klastrów

Dobre rozwiązanie powinno być nie tylko korzystne pod względem wybranego wskaźnika, ale również stabilne. Niewielka zmiana danych lub wartości początkowych nie powinna prowadzić do powstania zupełnie innego podziału.

Stabilność można ocenić poprzez:

  1. wielokrotne uruchomienie algorytmu z różnymi punktami początkowymi;
  2. przeprowadzenie analizy na losowo wybranych podpróbach;
  3. zastosowanie metod bootstrapowych;
  4. porównanie zgodności przypisań obserwacji do klastrów.

Jeżeli przy niewielkich zmianach danych obserwacje są regularnie przenoszone pomiędzy grupami, może to wskazywać, że struktura skupień nie jest jednoznaczna.

 

Jak wybrać ostateczne rozwiązanie?

Nie istnieje jedna miara, która w każdym zbiorze danych bezbłędnie wskaże prawidłową liczbę klastrów. Różne wskaźniki mogą preferować odmienne rozwiązania, ponieważ wykorzystują inne definicje dobrego podziału. Badania porównawcze pokazują również, że optymalizacja wybranego indeksu nie zawsze prowadzi do grup najlepiej odpowiadających wiedzy eksperckiej. W praktyce warto porównać kilka możliwych rozwiązań, biorąc pod uwagę jednocześnie:

  • wyniki kilku metod oceny jakości;
  • stabilność klastrów;
  • liczebność poszczególnych grup;
  • możliwość merytorycznego opisania klastrów;
  • przydatność uzyskanego podziału dla celu badania.

Przykładowo metoda łokcia może wskazywać na cztery klastry, podczas gdy najwyższą wartość silhouette uzyskano dla trzech grup. Jeżeli rozwiązanie z trzema klastrami jest również stabilne i pozwala na ich logiczną interpretację, może zostać uznane za bardziej uzasadnione.

 

Interpretacja otrzymanych klastrów

Po wybraniu liczby klastrów należy scharakteryzować każdą grupę. Można w tym celu przedstawić średnie, mediany, częstości lub inne statystyki opisowe zmiennych wykorzystanych w klasteryzacji.

W badaniach medycznych mogą przykładowo powstać grupy różniące się wiekiem, nasileniem objawów i wynikami badań laboratoryjnych. W analizie marketingowej klastry mogą natomiast reprezentować klientów różniących się częstością zakupów, wartością zamówień lub preferowanymi kategoriami produktów.

Nazwy klastrów powinny wynikać z ich rzeczywistych charakterystyk. Należy unikać nadawania grupom etykiet sugerujących cechy, które nie zostały uwzględnione w analizie.

 

Podsumowanie

Dobór liczby klastrów jest jednym z najważniejszych etapów analizy skupień. Metoda łokcia, współczynnik silhouette, statystyka Gap oraz indeksy Calińskiego-Harabasza i Daviesa-Bouldina mogą pomóc w porównaniu różnych podziałów danych.

Wyniki wskaźników nie powinny być jednak traktowane jako automatyczna i ostateczna decyzja. Oprócz jakości matematycznej należy ocenić stabilność, liczebność i interpretowalność klastrów oraz ich zgodność z celem prowadzonego badania.

Polecane serwisy: