Analýza regresní
analýza regresní – (z lat. regressio, a to od regredi = ustupovat, couvat) – analýza statist. dat založená na matem.-statist. modelech regresních rovnic: [math]Y = E(Y/X) + \epsilon[/math], kde [math]Y[/math] je závislá (obecně i vektorová) proměnná, [math]X[/math] je nezávislá (vektorová) proměnná, jejíž složky se nazývají regresory nebo prediktory, [math]\epsilon[/math] je náhodná chyba s nulovou očekávanou hodnotou ([math]E\epsilon = 0[/math] a nazývá se chybou regresní rovnice). [math]E (Y/X)[/math] je podmíněná očekávaná hodnota [math]Y[/math] za předpokladu, že byly realizovány hodnoty [math]X[/math], a v rovnici je vyjádřena pomocí regresní funkce, [math]E(Y/X) = g(X;\beta)[/math], [math]g[/math] je z určené třídy funkcí (např. lineární, polynomická ap., [math]\beta[/math] jsou neznámé parametry této funkce). Další předpoklady pro konkrétní modely specifikují: tvar funkce [math]g[/math], rozložení náhodné chyby, strukturu vztahů mezi [math]X[/math] a [math]E[/math], vlastnosti vektoru [math]Y[/math], korelovanost chyb pro jednotlivá pozorování (odchylek hodnot [math]Y[/math] od hodnot určených modelem, tzv. reziduí modelu). Mezi zákl. úlohy a.r. patří: 1. odhad parametrů regresní rovnice za předpokladu určitého tvaru funkce [math]g[/math] (lineární, logaritmická, kombinace exponenciel atp.) včetně určení přesnosti odhadu; 2. ověření vhodnosti modelu pro daný soubor dat (testování modelu); 3. predikce, extrapolace, diagnostika pomocí regresní rovnice (a určení její přesnosti); 4. konstrukce a vyladění modelu podle vlastností struktury datového souboru; 5. komparace regresních rovnic a jejich parametrů pro různé soubory. A.r. se používá v s-gickém výzkumu především pro cíle explanace a pro kauzální modelování (studium existence vlivů složek vektoru [math]X[/math] na [math]Y[/math], intenzity jejích vlivů a charakter ovlivňování, tj. tvar funkce [math]g[/math]). Velký význam má a.r. pro prognostiku: řeší úkoly min. popisu vlastností [math]Y[/math] pomocí složek vektoru [math]X[/math] a nepřímého měření [math]Y[/math] pomocí [math]X[/math] a přijatého modelu; umožňuje korekci hodnot [math]Y[/math] o vlivy [math]X[/math] (nežádoucí nebo oddělené), resp. jeho vybraných složek. A.r. se používá také pro zpřesnění odhadů populačních charakteristik proměnné [math]Y[/math] ve výběrových šetřeních, s využitím dodatečné informace o [math]X[/math] (regresní odhad). Specif. užití má a.r. v ekonometrických modelech a časových řadách (autoregresní modely). Pomocí a.r. lze řešit Wrightovy modely dráhových koeficientů (viz analýza drah).
Vybrané specif. modely a.r.: 1. Jednoduchá lineární regrese: [math]y = a + b x + \epsilon[/math], [math]y[/math], [math]x[/math] jednorozměrné proměnné, [math]\epsilon[/math] je nezávislá na [math]X[/math], individ. chyby pro jednotlivé případy, [math]y_i = a + b x_i + \epsilon_i[/math] jsou nekorelované (zpravidla také předpokládáme jejich normalitu a stejné rozptyly). V grafickém zobrazení je jednoduchá lineární regrese reprezentována regresní přímkou; [math]a[/math] je posunutí (na ose [math]y[/math]); [math]b[/math] se nazývá regresní koeficient nebo směrnice (= [math]\operatorname{tg}[/math] úhlu sevřenému regresní přímkou a osou [math]x[/math]) a vyjadřuje převod [math]X[/math] na [math]Y[/math]: [math]b[/math] = rozměr [math]y/[/math]rozměr [math]x[/math], označuje přírůstek očekávané hodnoty [math]y[/math] pro jednotkovou změnu [math]x[/math]; graficky lze chápat úlohu jednoduché lineární regrese jako nalezení přímky, která nejlépe vyjadřuje změnu tendence [math]y[/math] v závislosti na [math]x[/math] v bodovém grafu dat [math](X, Y)[/math]. Pro standardizované veličiny [math]Y[/math] a [math]X[/math] má regresní rovnice tvar [math]y = r x + \epsilon[/math], kde [math]r[/math] = korelační koeficient. Spec. případem je regrese počátkem (regresní přímka s rovnicí [math]y = b x + \epsilon[/math] prochází bodem [math]x = 0, y = 0[/math]). Stupeň vhodnosti regresní přímky pro data se měří reziduálním rozptylem, [math]\operatorname{var}\epsilon[/math] a normalizované koeficientem determinace [math]r^2[/math] vyjadřujícím podíl chyb na celkovém rozptýlení proměnné [math]y[/math]. Pomocí různých transformací lze metodami jednoduché lineární regrese řešit i nelineární vztahy, např. [math]y = A\, e^{b x}[/math] (transformace [math]y' = \operatorname{ln} x[/math]), [math]y = a + b\operatorname{ln}x[/math] (trans. [math]x' = \operatorname{ln}x[/math]), [math]y = A\,x^b[/math] (trans. [math]y' = \operatorname{ln}y[/math], [math]x' = \operatorname{ln}x[/math]) atd. Typické hypotézy, které testujeme u jednoduché lineární regrese, jsou [math]H_0 [/math]: [math]b = 0[/math] proti [math]H_1[/math]: [math]b = 0[/math] nebo [math]H_2[/math]: [math]b = 0[/math] nebo [math]H_3[/math]: [math]b = 0[/math]; [math]H_0[/math]: [math]a = 0[/math], [math]H_0[/math]: [math]b = 1[/math], [math]H_0[/math]: [math]b_1=b_2[/math] pro dva různé soubory.
2. Vícenásobná (mnohorozměrná) lineární regrese: [math]y = \Sigma b_k x_k + \epsilon[/math], [math]\epsilon[/math] je nezávislá na všech [math]x_k[/math], individ. chyby [math]\epsilon_i[/math], jsou nezávislé, normálně rozložené veličiny se stejnými rozptyly. Regresní koeficient [math]b_k[/math] značí přírůstek očekávané hodnoty [math]y[/math] při jednotkové změně [math]x_k[/math], jsou-li všechny ostatní [math]x_j[/math] konstantní (proto se [math]b_k[/math] nazývá přesněji parciální regresní koeficient). Model je rozšířením jednoduché lineární regrese. K úloze odhadu [math]b_k[/math] a testování vhodnosti modelu přibývá úloha zhodnocení vlivu jednotlivých proměnných, komparace intenzit jejich vlivů na [math]Y[/math] a vyloučení nepotřebných proměnných z regresní rovnice. Pro [math]x_k[/math] měřené v různých jednotkách není srovnání [math]b_k[/math] možné, částečné srovnání je umožněno přechodem ke standardizovaným proměnným [math]y[/math] a [math]x_k[/math] to poskytuje standardizované regresní koeficienty [math]\beta_k[/math]. Pro určení nejmenší podmnožiny regresorů, která statisticky významně ovlivňuje změnu [math]Y[/math] (podílí se na vysvětlení variability [math]Y[/math]), se používají metody krokové a.r. (přidáváním regresorů do regresní rovnice, ubíráním z ní nebo kombinací obou), regrese na hlavní komponenty regresorů, analýza vlastních čísel, metoda všech podmnožin [math]X[/math]. Vhodnost modelu a přesnost odhadů je narušena v případě kolinearity, tj. vzájemné lineární korelovanosti regresorů. Vliv kolinearity se pokouší eliminovat metoda hřebenové regrese, regresní rovnice na hlavní komponenty a a.r. vlastních čísel; dodatečným prvkem regresního modelování je možnost formulovat omezení, která vyjadřují lineární vztahy mezi regresními koeficienty.
3. Polynomická regrese: [math]y = b_0 + b_1 x+ b_2 x^2 +\ \ldots + b_K x^K + \epsilon[/math] je rozšíření jednoduché lineární regrese o kvadratický, kubický, bikvadratický atd. člen. Je spec. případem vícenázorné lineární regrese, v níž [math]X_k = X^k[/math]. Vzájemná závislost regresorů, které všechny vycházejí z jedné proměnné [math]X[/math], je překonávána pomocí metody tzv. orthogonálních polynomů.
4. Nelineární regrese: pro spojitou proměnnou vyjadřuje obecný vztah pro explicitně zadanou funkci [math]g[/math], přičemž se předpokládá většinou normalita rozložení chyby; řešení se provádí přímo iteračními metodami, bez převodních transformací na jednoduchou lineární regresi.
5. Logistická regrese: specif. případ vyrovnání dat pomocí logistické [math]S[/math]-křivky [math]y = A + B \, e^{a + bx} / (1 + e^{a + bx})[/math]. Model se v praxi zjednodušuje podle situace dosazením známých číselných hodnot (např. [math]A = 0[/math], [math]B =[/math] horní hranice růstu).
6. Logitová a logistická regrese pro kategorizovaná data: vyjadřuje vztah mezi logitem četností a hodnotami nezávislých (kategorizovaných i číselných) proměnných: [math]\operatorname{logit} p = \operatorname{ln} (p/(1-p)) = b_0 + \Sigma b_k x_k[/math], kde [math]k[/math] je složený index podle kategorií, číselných proměnných a vzájemných kombinací. Obdobně existuje probitová regrese (nezávislou proměnnou je inverzní normální distribuční funkce četnosti) a další.
7. A.r. v kontingenčních tabulkách pro dvě i více proměnných: zahrnuje různé modely vztahu mezi kategoriemi dvou proměnných a závislosti jedné kategorizované proměnné na několika nezávislých kategorizovaných proměnných.
Specif. užitím jednoduché regresní rovnice (lineární i nelineární) je vyjádření trendů časové řady (vyhlazení křivky vývoje [math]y[/math]), je-li za [math]X[/math] vzata časová osa. Nejčastější metodou odhadu parametrů je metoda nejmenších čtverců (minimalizuje reziduální rozptyl). Metoda max. věrohodnosti vychází z předpokladu normality reziduí a hledá max. shodu normální plochy a dat. Pro složitější případy (korelovanost chyb a regresů, vzájemná korelovanost individ. chyb, zvl. vazby mezi složkami vektorového [math]y[/math], apod.) se používají spec. regresní metody: dvoustupňová a třístupňová, se zdánlivě závislými chybami, metoda instrumentu a další. Jako obrana proti netypickým a vychýleným případům a proti porušení distribučních předpokladů jsou aplikovány robustní a neparametrické metody.
regression analysis analyse de la régression Regressionsanalyse analisi di regressione
Literatura: Draper, N. R. – Smith, H.: Applied Regression Analysis. New York 1981; Haberman, S. J.: Analysis of Qualitative Data, vol. 1. New York 1979; Smillie, K. W.: An Introduction to Regression and Correlation. Toronto 1966.