Koeficient lineární korelace

koeficient lineární korelace – vyjadřuje stupeň vzájemné lineární závislosti ve vztahu mezi dvěma číselnými proměnnými. Pro dvojrozměrnou statist. řadu [math](X_i, Y_i)[/math], [math]i = 1, 2,\ \dots, n[/math] je k.l.k. určen jako [math]r = \Sigma (X_i-\bar{X}) (Y_i-\bar{Y}) / \big(\Sigma (X_i-\bar{X})^2\Sigma(Y_i-\bar{Y})^2 \big)[/math]. Jeho hodnoty leží v intervalu [math][-1, +1][/math], krajních hodnot nabývají v případě, že platí [math]Y_i - \bar{Y} = b(X_i - \bar{X})[/math] pro všechna pozorování, a to podle znaménka [math]b[/math]. Jsou-li všechna [math]X_i[/math] nebo všechna [math]Y_i[/math] stejná ([math]\operatorname{var} X = 0[/math] nebo [math]\operatorname{var} Y = 0[/math]), [math]r[/math] není definován. Je-li [math]r=0[/math], mezi [math]X_i[/math] a [math]Y_i[/math] neexistuje lineární vztah (interpretačně jde buď o jiný typ závislosti, nebo o statist. nezávislost). Čím vyšší je kladná hodnota [math]r[/math], tím vyšší je stupeň lineární závislosti, čím bližší je [math]r[/math] k hodnotě [math]-1[/math], tím vyšší je stupeň nepřímé lineární závislosti. K.l.k. má celou řadu statist. pravděpodobnostních, geometrických a trigonometrických interpretací a definic. V praxi se používají různé výpočetní vzorce a též zjednodušené (rychlé) postupy jeho odhadu. K.l.k. má 2 hlavní analytické významy: 1. je to míra párového vztahu korelace, vyjadřující stupeň linearity (intenzitu lineární složky); 2. je to míra vhodnosti jednoduché lineární rovnice [math]y = a + b\,x + \epsilon [/math], resp. rovnice [math]x = a + b\,y + \epsilon [/math]. Při studiu více proměnných současně se párové k.l.k. sestavují do korelačních matic (korelační vztahy všech proměnných mezi sebou do tzv. čtvercové korelační matice). Korelační matice jsou základem mnohorozměrných lineárních statist. metod a korelační analýzy, která se zabývá hodnocením párových vztahů, testováním vhodnosti všech korelačních koeficientů, testováním rovnosti korelačních matic v různých souborech, vyhledáváním nejtěsnějších korelačních návazností metodou minimální kostry grafu a korelačních shluků, komplementárních vlastností atd.

K.l.k. odhlíží od měřítka stupnice a není citlivý na změnu posunutí ani volbu jednotek u [math]X[/math] či [math]Y[/math]. Vzniká jako normalizovaná kovariance (míra společné variability dvou proměnných v oboru jejich hodnot), která měří stupeň vztahu [math]X[/math] a [math]Y[/math] vzhledem k jejich stupnicím. Korelační (i kovarianční) matice jsou také východiskem pro modelování lineárních kauzálních struktur (viz analýza kauzální). K.l.k. je též parametrem dvou- a vícerozměrného rozložení. Jeho aplikace není vhodná pro případy silně šikmých rozložení [math]X[/math] nebo [math]Y[/math] a soubory dat se vzdálenými pozorováními. Zobecněním k.l.k. vzniká: a) koeficient vícenásobné lineární korelace, který měří vztah mezi proměnnou [math]Y[/math] několika jinými proměnnými [math]X_1, X_2,\ \ldots, X_K[/math]; b) koeficient kanonické korelace, který měří vztah dvou skupin proměnných mezi sebou; c) koeficient parciální lineární korelace, měřící stupeň lineární závislosti dvou proměnných [math]X, Y[/math] za předpokladu, že proměnné [math]Z_1,\ \ldots, Z_K[/math] se nemění, a tudíž že se nerealizuje jejich vliv na vztah [math]X, Y[/math] (koeficient parciální lineární korelace [math]K[/math]-tého řádu); d) Spearmanův koeficient pořadové korelace, což je míra monotónního vztahu mezi [math]X[/math] a [math]Y[/math], kterou lze spočítat tak, že se původní hodnoty [math]X_i[/math] a [math]Y_i[/math] nahradí pořadím v souboru. K.l.k. splývá s koeficientem korelace mezi dvěma jevy [math]A, B[/math], zavedeme-li [math]X[/math] a [math]Y[/math] jako indikátorové proměnné výskytu jevů (1 = jev se vyskytl, 0 = jev se nevyskytl). K.l.k. je vedle průměru, procenta a rozptylu nejfrekventovanější aplikovanou statist. mírou; je často chybně interpretován záměnou lineární nezávislosti (nekorelovanosti) za obecnou statist. nezávislost (v případě [math]r = 0[/math]). Čtverec k.l.k. [math]r^2[/math] je koeficient determinace, vyjadřující část variance jedné z proměnných vysvětlené lineárním vztahem k druhé proměnné. K.l.k. byl explicitně zaveden K. Pearsonem v r. 1895. Geneze pojmu je spojena též se jmény: K. F. Gauss (1823), J. S. Mill (1843), A. Bravais (1846), Ch. R. Darwin (1868), F. Galton (1877, 1885, 1888).

coefficient of linear correlation coefficient de corrélation linéaire linearer Korrelationskoeffizient coefficiente di correlazione lineare

Literatura: Nicewander, W. A.: Thirteen Ways to Look at the Correlation Coefficient. The American Statistitian, 42, 1988; Rao, C. R.: Lineární metody statistické indukce a jejich aplikace. Praha 1978; Smillie, K. V.: An Introduction to Regression and Correlation. Toronto 1966.

Jan Řehák