Koeficient determinace

Verze z 16. 12. 2017, 15:57, kterou vytvořil JD (diskuse | příspěvky) (uzavřený interval [0, 1])
(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)

koeficient determinace – (z lat. coefficiens = spolupůsobící; z lat. determinare = vymezovat, ohraničovat) – 1. Míra vhodnosti lineární regresní rovnice [math]Y=b_0 + \Sigma b_kX_k + \epsilon[/math] vyjadřující vztah závislé proměnné [math]Y[/math] k proměnným [math]X_1, X_2,\ \ldots, X_K[/math] pro data empir. souboru. K.d. se značí [math]R^2[/math] (též se vyjadřuje v % jako [math]100R^2\%[/math]) a ukazuje podíl variance proměnné [math]Y[/math] vysvětlené pomocí lineární regresní analýzy s proměnnými [math]X_1, X_2,\ \ldots, X_K[/math], [math]R^2 = 1-\Sigma (Y_i-\hat{Y}_i)^2/\Sigma (Y_i-\bar{Y})^2[/math]; [math]Y_i[/math] jsou hodnoty proměnné [math]Y[/math] v datovém souboru, [math]\hat{Y}_i[/math] je hodnota určená rovnicí pro [math]i[/math]-tý objekt, [math]\bar{Y}[/math] je průměr hodnot [math]Y_i[/math]. [math]1 - R^2[/math], (resp. [math](1 - R^2)\,100\%[/math]) ukazuje na podíl variability, která zůstává nevysvětlena a která charakterizuje chybovou proměnnou (zbytková, zůstatková, chybová, reziduální variance). Nazývá se také koeficientem neurčitosti rovnice (koeficient indeterminace). [math]R[/math] je koeficient vícenásobné korelace lineární mezi [math]Y[/math] a [math]X_1, X_2, \ldots, X_K[/math]; pro párovou regresi [math]Y = b_0 + b_1 X + \epsilon[/math] je k.d. čtvercem c [math]r[/math]. 2. Obecně je to koeficient vycházející z obecného rozkladu variability: „celková variabilita [math]Y[/math] = variabilita [math]Y[/math] vysvětlená vztahovým modelem a nezávisle proměnnými [math]X[/math] + variabilita rozdílu [math]Y[/math] od modelových hodnot [math]\hat{Y}[/math]“. Při aplikaci metody nejmenších čtverců, jejích modifikací a zobecnění měříme variabilitu pomocí čtverců odchylek a rovnici zapisujeme: [math]\Sigma (Y_i-\bar{Y})^2 = \Sigma (\hat{Y}_i-\bar{Y})^2 + \Sigma (Y_i-\hat{Y}_i)^2[/math] nebo symbolicky [math]TSS = MSS + RSS[/math] (celkový součet čtverců odchylek = modelový součet čtverců odchylek + reziduální součet čtverců odchylek). K.d. je roven [math]R^2 = MSS/TSS = 1 - RSS/TSS[/math]; vyjadřuje se též jako [math]100 R^2 \%[/math] a označuje podíl modelem a proměnnými vysvětlené variance z celkové empir. variability [math]Y[/math].

K.d. je mírou statistické závislosti mezi (nezávislými) proměnnými [math]X_1,\ \ldots, X_K[/math] a závislou proměnnou [math]Y[/math], která obecně může být i vektorová; nabývá hodnoty v intervalu [math][0, 1][/math]; při absenci závislosti je roven nule a jestliže model naopak plně reprodukuje data [math]Y_i[/math] (saturovaný model), je jeho hodnota rovna jedné. Vyšší hodnota k.d. indikuje těsnější statist. závislost. [math]1 - R^2[/math] se nazývá koeficientem neurčitosti (indeterminace). Specif. tvary jsou určeny podle analytické situace, modelu, tvaru proměnných a způsobu měření čtvercových odchylek. Jsou to např. k.d. lineární regresní rovnice, korelační poměr, korelační index, Wallisův koeficient asociace mezi nominálními znaky, koeficient beta pro vztahy mezi nominální a ordinální proměnnou, obecné koeficienty explanační síly rozkladu, P-R-E koeficient (koeficient redukce predikční chyby), čtverec koeficientů kanonické korelace aj. K.d. vznikají také jako součást výsledků složitějších metod, v nichž charakterizují význam a vliv proměnných nebo kvalitu modelu: procento vysvětlené variance latentními faktory i celým modelem ve faktorové analýze, resp. v metodě hlavních komponent a v korespondenční analýze, vliv přímých faktorů a modelu v analýze rozptylu, diskriminabilita faktorů v diskriminační analýze, vhodnost výsledků seskupovací analýzy. K.d. lze vyjádřit také predikčním modelem (resp. vyhlazovacím modelem): a) hodnoty [math]Y_i[/math] jsou predikovány z hodnot [math]X_1,\ \ldots, X_K[/math] pomocí funkce [math]Y = g( X_1,\ \ldots, X_K )[/math], a to ve smyslu nejmenších čtverců s nejmenší zůstatkovou variabilitou [math]RSS[/math]; b) k.d. je podíl vlivu funkce [math]g(X)[/math] na [math]Y[/math] a tudíž ukazatel přesnosti predikce [math]RSS[/math] = míra odchýlení predikovaných hodnot od reálných hodnot [math]Y[/math]. V úlohách nelineární regrese se k.d. nazývá korelačním indexem. K.d. lze rozšířit na parciální k.d. (parciální korelační poměr, parciální koeficient explanační síly).

coefficient of determination coefficient de détermination Determinationskoeffizient, Bestimmtheitsmaß coefficiete di determinazione

Literatura: Rao, C. R.: Lineární metody statistické indukce a jejich aplikace. Praha 1978; Řehák, J.Řeháková, B.: Vícenásobná a parciální asociace v kontingenčních tabulkách, Sociologický časopis, XXII, 1986; viz též koeficienty statistické.

Jan Řehák