Metoda hlavních komponent

metoda hlavních komponent – (z lat. componens = skládající) – metoda mnohorozměrné statistické analýzy číselných dat, poskytující nezávislé lineární funkce proměnných vstupního vektoru, které ve svém souhrnu reprezentují veškerou informaci vstupního souboru proměnných, ale jejichž malá část poskytuje většinu informace pro analýzu i další zpracování dat. První hlavní komponenta shrnuje maximum informace, které je možno pojmout do jedné lineární funkce, a vysvětluje také maximum variability a korelovanost proměnných. Každá další hlavní komponenta shrnuje maximum informace, která nebyla dosud podchycena předchozími komponentami. Hlavní komponenty mohou mít také interpretaci latentních proměnných, které vytvářejí data, jejich variabilitu a korelovanost. M.h.k. se používá pro: a) redukci sbírané informace (vynecháním proměnných, které samostatnou relevantní informaci neobsahují a které hlavním komponentám nepřispívají), b) redukci záznamové informace s možností úsporného vstupu do dalších analýz (přechodem od původního dlouhého vektoru proměnných k malému počtu syntetických komponent), c) geometrickou reprezentaci vztahů proměnných (koeficienty hlavních komponent poskytují souřadnice bodů v prostoru), d) studium těch proměnných, které působí max. polární diferenciaci v datovém souboru (vysoké hodnoty a znaménka koeficientů hlavní komponenty), e) studium existence latentních proměnných a povahy vzniku dat, f) grafické znázornění jednotek souboru v geometrickém prostoru (pomocí hodnot hlavních komponent), g) vyhlazení dat odečtením náhodné složky (vynecháním komponent s malým podílem na diferenciaci dat v celku a s nejasnou strukturou koeficientů), h) vstup do výpočtů, kde předpokládáme nebo vyžadujeme nekorelované vstupy a kde korelace vstupů ohrožuje výsledek (tzv. multikolinearita), např. v regresní analýze. M.h.k. vychází buď z původních dat a využívá kanonický rozklad kovarianční matice, nebo předpokládá apriorní standardizaci a vychází z korelační matice. Její zobecnění lze provést pro kategorizovaná data (viz korespondenční analýza) i pro data smíšeného typu (číselná i kategorizovaná). Ve statist. programech většinou nalezneme m.h.k. mezi procedurami faktorové analýzy, za jejíž nejjednodušší variantu může být považována. Neparametrickým analogem této metody je mnohorozměrné škálování.

principal component analysis méthode des composantes principales Methode der Hauptkomponenten metodo delle componenti principali

Literatura: Lebart, L.Morineau, A.Warwick, K. M.: Multivariate Descriptive Statistical Analysis. New York 1984; Rao, C. R.: Lineární metody statistické indukce a jejich aplikace. Praha 1978.

Jan Řehák