Analýza diskriminační

analýza diskriminační – (z lat. discrimen = odlišení) – typ mnohorozměrné statistické analýzy zaměřené na studium rozdílů mezi dvěma nebo více skupinami statist. jednotek (populacemi, subpopulacemi, soubory dat, oblastmi atp.), které se projevují v určeném komplexu proměnných. Používá se pro řešení: a) analytických úloh – především pro určení rozhodovacích pravidel (odvozených jako funkce dat), kterými je nejlépe charakterizována příslušnost statist. jednotky ke skupinám (identitifikační úloha), dále pro určení funkcí dat, které charakterizují rozdílnosti mezi skupinami (komparační úloha), pro určení stupně odlišitelnosti určených skupin informací uloženou v daném datovém vektoru (studium heterogenity souboru a měření asociace mezi klasifikací a vektorem proměnných) a konečně pro určení proměnných, které obsahují diskriminační (rozlišující) informaci (redukce informace); b) rozhodovacích úloh, tj. určení rozhodovacích pravidel, které přiřazují jedince ke skupinám na základě proměnných (diagnostika), a ověřování zvolené nebo jinými metodami určené dekompozice souboru na homogenní části (klasifikace). A.d. se provádí různými metodami. Rozlišuje se lineární a.d., metody klasifikace po souřadnicích, metoda konvexních obalů, metoda koalicí, pořadové metody a metoda aposteriorní pravděpodobnosti pro kategorizovaná a diskrétní data. Metody se též dělí na: 1. metody neparametrické – jednotky jsou reprezentovány body a mezi skupiny se prokládají plochy; 2. metody parametrické – data jsou prokládána statist. rozloženími a řešení se získá jejich komparací a pravděpodobnostním rozložením. Nejčastěji se používá lineární a.d., která vychází z kovariančních matic dat a je založena na tom, že rozhodování a propos rozdílů skupin se provádí pomocí lineárních diskriminačních funkcí (kanonické diskriminační funkce). Pro diagnostické účely používáme nestandardizované lineární diskriminační funkce, které vycházejí z původních dat. Hodnoty těchto funkcí pro jednotlivé případy nazýváme diskriminační skóry – jejich velikost indikuje příslušnost ke skupinám. Pro komparační a identifikační interpretaci se používají přepočtené, tzv. standardizované koeficienty, které vycházejí ze standardizovaných dat a poskytují relativní důležitost proměnné ve vytváření diskriminačních skórů. Predikční síla mezi proměnnými a diskriminačními funkcemi je měřena pomocí koeficientů korelace, které se nazývají strukturní koeficienty. Klasifikační procedury jsou založeny na hodnotách diskriminačních skórů, na vzdálenostech k centroidům skupin nebo na aposteriorních pravděpodobnostech příslušnosti jednotek ke skupinám, odvozených z empir. dat. Diagnostická pravidla a jejich predikční síla a kvalita se odvozují různými postupy: a) z celého souboru dat s kontrolou na něm (a s příp. reklasifikací jednotek); b) opakovaně tak, že se vždy vyjme jedno pozorování, které je poté kontrolně klasifikováno; c) rozdělením souboru dat na 2 náhodné části: analytickou (cvičnou, trénovací) množinu, na níž jsou odvozena pravidla a funkce, a na ověřovací (testovací, kontrolní) množinu, na níž se zkoumá schopnost odvozeného modelu rozlišovat. Určení proměnných, které postačují nebo které jsou nutné pro cíle popisu či rozhodování se kromě substantivního rozhodnutí předem může provádět statist. postupnou (krokovou) a.d., a to tak, že se postup opakuje a u každého kroku se na základě zvolených optimalizačních kritérií buď přidá, nebo ubere jedna proměnná ze zadaného vektoru.

discriminant analysis analyse discriminante Diskriminanzanalyse analisi diskriminante

Literatura: Enslein, K.Ralston, A.: Statistical Methods for Digital Computers. New York 1977; Klecka, W. R.: Discriminant Analysis. Newbury Park 1980.

Jan Řehák