Analýza seskupovací

analýza seskupovací – též analýza klastrová, analýza shluková, numerická taxonomie – postupy mnohorozměrné statistické analýzy, jejichž cílem je nalézt skupiny jednotek, které jsou homogenní vzhledem k danému profilu dat, anebo skupiny, jejichž prvky jsou si vzájemně podobné vzhledem k zadané míře podobnosti (resp. nepodobnosti nebo vzdálenosti). A.s. poskytuje skupiny buď disjunktní (dekompozice souboru), nebo překrývající se. Metody jsou založeny na různých principech. 1. Hierarchické aglomerativní postupy spojují na každém kroku vždy dva nejbližší objekty (kterými jsou buď původní statist. jednotky, nebo již postupem vzniklé skupiny). Známé metody se liší podle toho, jak charakterizují podobnosti skupin: metoda nejbližšího souseda (metoda jednoduchého spojení – nejmenší vzdálenost dvojice prvků z obou skupin), metoda nejvzdálenějšího souseda (metoda úplného spojení – největší vzdálenost dvojice prvků z obou skupin), metoda průměrné vzdálenosti (průměr všech vzdáleností dvojic z obou skupin), centroidní metoda (vzdálenost centroidů), Wardova metoda (minimalizuje rozptyly uvnitř skupin), mediánová metoda, kombinovaná hlediska. Skupiny mohou být váženy. 2. Postupy hierarchického rozkladu souboru spočívají v postupném dělení souboru na stále homogennější skupiny (viz např. analýza větvených interakčních struktur). 3. Metoda přímého dělení souboru spočívá v nalezení dekompozice, která splňuje určitá, předem stanovená optimalizační kritéria, nebo vychází ze statist. pojmu směsi, jejíž parametry odhaduje a z níž vycházejí následná klasifikační pravidla, nebo konečně vychází z rozkladu grafu relací (viz teorie grafů). 4. Relokační postupy vycházejí z přijatého předchozího řešení, ze záměrného rozčlenění souboru nebo z náhodného seskupení do zvoleného počtu výchozích skupin a postupným přesouváním prvků mezi skupinami hledají optimální rozmístění splňující předem zvolené kritérium. 5. Postupy založené na faktorové analýze (g-technika, využití faktorových skórů), metodě hlavních komponent a korespondenční analýze. V rutinní analýze dat se často používá postup hierarchického seskupování a po rozhodnutí o počtu skupin se provádí relokace. Pro obzvláště velké soubory se používají přibližné postupy založené na redukci dimenzionality metodou hlavních komponent, umístění skupin podél os s následnou několikakrokovou relokací. Určení metody závisí na povaze dat a problému, na velikosti souboru a účelu a.s. U kategorizovaných dat se používá často nejprve odhad latentních faktorů metodou korespondenční analýzy a s jejich číselnými hodnotami se vstupuje do a.s. Postup a.s. má několik kroků: a) definice objektů a určení vlastností (proměnných), operacionalizace pojmů homogenita a heterogenita, která je základem postupu, b) transformace proměnných na zpracovatelný tvar (standardizace, kvantifikace atp.), c) výběr metody a její provedení, výběr počtu skupin, d) validizace a kontrola výsledku, zjišťování statist. významnosti rozdílů a statist. testování homogenity, e) interpretace a přijetí výsledku, resp. návrat ke kroku a), modifikace vstupů a nové řešení. A.s. se používá k odvození typologií, pro rozhodovací postupy, predikci a diagnostiku, k vydělení netypických objektů souboru, ke studiu heterogenity a jejích latentních faktorů a pro redukci informace.

cluster analysis analyse des rassemblements Cluster-Analyse analisi dei raggruppamenti

Literatura: Aldenderfer, M. S.: Cluster Analysis. Newbury Park 1984; Lebart, L. – Morineau, A. – Warwick, K. M.: Multivariate Descriptive Statistical Analysis. New York 1984; Mandel, I. D.: Klastěrnyj analiz. Finansy i statistika. Moskva 1988.

Jan Řehák