Modely logaritmicko-lineární

modely logaritmicko-lineární – způsoby analýzy kontingenčních tabulek založené na součinovém vyjádření vlivu jednotlivých kategorií a jejich kombinací na očekávané hodnoty četností v polích tabulky. Po logaritmování vztahu přejde model v aditivní lineární vztahy: [math]\operatorname{ln}[/math] (očekávaná četnost v poli) = [math]u[/math] + (součet příspěvků zvolených kategorií a zvolených kombinací kategorií); členy součtu jsou voleny tak, aby vyjadřovaly asociační vztahy konkrétního zkoumaného modelu (situaci můžeme charakterizovat také jako schéma analýzy rozptylu pro logaritmy četností v tabulce). Zákl. je tzv. saturovaný nebo úplný model, v němž rovnice modelu u každého pole obsahuje příspěvky všech kategorií, jejichž křížením (průnikem) pole vzniká, a zároveň příspěvky všech kombinací těchto kategorií; reprodukuje četnost zcela přesně. Vliv kombinace [math]k[/math] kategorií se nazývá zpravidla interakcí [math]k[/math]-tého řádu (vliv samotné kategorie = interakce 1. řádu, vliv nezávislý na kategoriích ([math]u[/math]) = interakce nultého řádu). Vynecháním některé interakce z modelu je vysloven předpoklad, že její vznik je náhodný. Např. model nezávislosti v dvourozměrné tabulce ([math]\operatorname{ln} m_{ij} = n + a_i + b_j[/math]) říká, že očekávaná četnost [math]m[/math] v poli [math](i, j)[/math] vzniká příspěvkem [math]i[/math]-té řádkové a [math]j[/math]-té sloupcové kategorie separovaně; interakční vliv [math]c_{ij}[/math] v modelu chybí a tudíž tyto členy jsou náhodné (v saturovaném modelu je zahrnut). Tedy: [math]m_{ij} = U e^{a_i} e^{b_j} = U A_i B_j[/math] je klasické vyjádření nezávislosti. M.l.-l. se zadávají určením všech interakcí, které mají podle předpokladu nenáhodný charakter a odpovídají věcně výzkumným představám o vzniku četností a o asociačním schématu výzk. hypotézy. Hierarchické modely splňují podmínku, že ke každé interakci k-tého řádu v modelu existují všechny kombinace vlivů [math](k-1)[/math]-ního řádu obsažených ve vyšší interakci (tato vlastnost je hierarchicky splněna až po interakci 1. řádu a z důvodů výpočetních hraje zvlášť důležitou roli).

m.l.-l. kromě zákl. součtového vyjádření jsou k dispozici ještě další modelové prostředky podstatně rozšiřující analytické a interpretační možnosti: a) váhy polí – kladné konstanty [math]w[/math] přiřazené polím, které v rovnici zaměňují [math]\operatorname{ln} m[/math] na [math]\operatorname{ln}(m/w)[/math]; b) kovariáty – číselné proměnné přiřazené polím kontingenční tabulky (typicky: průměr nějaké číselné proměnné, indikace dodatečně určené vlastnosti polí nebo jejího stupně, vnější známá vlastnost pole); v rovnici vystupují jako regresory vztažené k reziduím po odečtení vlivu kategorií (jednotlivě i v kombinacích); c) blokování polí – vylučuje z analýzy zvolená pole (typicky: diagonála u čtvercové tabulky, dolní nebo horní trojúhelník polí, pole s vysokými a věcně odůvodněnými nebo naopak zřetelně chybnými rezidui); d) kontrasty – lineární vztahy (funkce) vyjadřující komparaci vlivů kategorií (typicky: vztah k jedné referenční kategorii, sousední kategorie ordinálního znaku, skupiny kategorií mezi sebou); e) podmíněnost – vynechání kategorií, výběr podsouboru a opakování analýzy na podsouborech. Vztahy modelu lze zadat také přímo maticí vztahové struktury (maticí modelu), která indikuje existenci a působení modelových faktorů (kategorií, kombinací kategorií kovariát, kontrastů) na četnosti v polích tabulky. Koeficienty, které vyjadřují intenzitu vlivu těchto faktorů na četnosti, se nazývají parametry modelu. Postup analýzy: formulace modelu; testování platnosti modelu; odhady parametrů za předpokladu platnosti modelu; reziduální analýza. Ve třídě hierarchických modelů je možno postupovat automaticky postupným vyškrtáváním interakčních členů od nejvyšších hierarchicky tak dlouho, až ve statist. platném modelu vede vypuštění každé další interakce již k zamítnutí shody modelu a dat; cílem je získat model s co nejnižšími interakcemi a co nejúspornější.

Typy úloh: 1. testování dobré shody četností s předpokladem; 2. vyjádření asociačních a závislostních schémat hierarchického a nehierarchického typu pro nominální, ordinální a kardinální znaky v úplných i neúplných tabulkách; 3. komparace souborů vzhledem k asociačním schématům; 4. komparace kategorií, skupin kategorií a kombinací kategorií vzhledem k jejich vlivu; 5. spec. modely pro popis vztahů mezi kategoriemi a geneze vzniku četností. Omezení na tvorbu a realizaci modelu jsou matem.statist. rázu: a) metoda vychází z asymptotické teorie, která vyžaduje větší počet pozorování (podle velikosti tabulky), b) metoda je citlivá na nulová nebo málo obsazená pole, obzvl. je-li jich větší počet, c) metoda vyžaduje dodržení určitých pravidel (ortogonalita vlivů, dimenzionalita). Odhady parametrů se provádějí buď přímo algebraicky (u tzv. multiplikačních modelů), nebo interakčními postupy. Shoda dat a modelové představy se testuje kteroukoliv statistikou dobré shody (nejčastěji metodou max. věrohodnosti a klasickým Pearsonovým testem chí-kvadrát).

log-linear models modèles logarithmiques linéaires logarithmisch-lineare Modelle modelli logaritmico-lineari

Literatura: Bishop, J. M. M.Fienberg, S. E.Holland, P. W.: Discrete Multivariate Analysis: Theory and Practice. Cambridge, Mass. 1975; Haberman, S. J.: Analysis of Qualitative Data, vol. 1, 2. New York 1979; Upton, G. J. G.: The Analysis of Cross-tabulated Data. Wiley. Chichester 1978.

Jan Řehák