Testování statistických hypotéz

testování statistických hypotéz – postup rozhodování o přijetí či odmítnutí statistické hypotézy nebo jedné ze dvou či více hypotéz. Statist. hypotéza [math]H[/math] je matem.statist. model vzniku dat, vztahu mezi částmi souboru či mezi proměnnými, nebo je to výrok o parametrech z přijaté třídy modelů, resp. o podtřídě modelů. Podle statist. metodologie a formulace statist. problému rozlišujeme 3 zákl. situace t.s.h.

1. Testování platnosti zvolené hypotézy [math]H[/math] proti omnibusové (všeobecné) alternativě je přístup statist. významnosti R. A. Fishera, spočívající v určení testové statistiky [math]T[/math], která charakterizuje shodu empir. dat a hypotézy [math]H[/math]. Jestliže [math]T[/math] je tak velká, že shoda dat a [math]H[/math] je málo pravděpodobná (pravděpodobnost, že dosažená shoda nebo shoda horší je menší než předem zadané riziko, typicky [math]\alpha=0,05[/math] nebo [math]0,01[/math]), říkáme, že statistika [math]T[/math] je statist. významná, a [math]H[/math] odmítáme; jestliže však [math]T[/math] ukazuje na statist. nevýznamnou neshodu, není důvod zamítat [math]H[/math], a proto ji přijímáme jako statist. závěr. (Příkladem je testování dobré shody s normálním rozložením, testování nezávislosti v kontingenční tabulce). V analytické praxi je po zamítnutí [math]H[/math] většinou zapotřebí specifikovat platnou užší alternativu, která přinese relevantní s-gickou informaci. Specifikaci provádíme buď rozkladem [math]H[/math] na dílčí hypotézy a simultánním testováním statistických hypotéz, nebo postupným testováním několika různých hypotéz [math]H, H', H'',\ldots[/math].

2. Rozhodování o zvolené [math]H_0[/math] (tzv. nulová hypotéza) proti specif. určené alternativní hypotéze [math]H_A[/math] je rozhodovacím přístupem J. Neymana a E. S. Pearsona: podle tzv. Neymanova–Pearsonova lemmatu (resp. některého jeho zobecnění) se určí optimální testová statistika a k ní rozhodovací statist. pravidlo (statistický test), které umožňuje rozhodnout mezi [math]H_0[/math] a [math]H_A[/math]: a) určí se pravděpodobnost chyby 1. druhu [math]\alpha[/math] (tj. pravděpodobnost přijetí [math]H_A[/math] za předpokladu, že [math]H_0[/math] platí), b) minimalizuje se pravděpodobnost chyby 2. druhu [math]\beta[/math] (tj. pravděpodobnost, že přijmeme, resp. neodmítneme [math]H_0[/math] ve prospěch [math]H_A[/math], která však ve skutečnosti platí). Druhé kritérium se formuluje také jako maximalizace síly testu [math]1-\beta[/math]; je-li [math]H_A[/math] závislá na parametru [math]\xi[/math], nazývá se funkce [math]1-\beta(\xi)[/math] silofunkcí. Ke každé dvojici [math]H_0[/math] a [math]H_A[/math] je určena testová statistika [math]T[/math] a kritická hodnota [math]T_\alpha[/math] k zadanému [math]\alpha[/math] (typicky 0,05 nebo 0,01), jejíž překročení statistikou [math]T[/math] znamená odmítnutí [math]H_0[/math] a přijetí [math]H_A[/math]. Rozhodovací situace je podmíněna alternativními možnostmi [math]H_0[/math] a [math]H_A[/math] – interpretace a použitelnost výsledku závisí na vhodnosti jejich volby. V aplikaci volíme hypotézy typicky tak, že [math]H_0[/math] považujeme za východisko, odrazový můstek k prokázání výzk. zajímavé alternativy [math]H_A[/math]. [math]H_0[/math] sama bývá v některých situacích výzk. nezajímavá. Proto, vzhledem ke specifičnosti [math]H_A[/math], má nepřijetí alternativy v takovém interpretačním kontextu jen tento negační význam a nevypovídá o platnosti [math]H_0[/math]; v praxi můžeme opakovat testování [math]H_0[/math] proti jiným alternativám. Legitimnost závěru závisí také na správnosti volby distribučního modelu. Příklady: [math]H_0[/math] = výběrový průměr odpovídá hodnotě parametru [math]\mu_0[/math], [math]H_A[/math] = výběrový průměr odpovídá hodnotě parametru větší než [math]\mu_0[/math]; [math]H_0[/math] = korelační koeficient [math]r(X,Y)[/math] odpovídá populační hodnotě nula, [math]H_A[/math] = korelační koeficient odpovídá hodnotě různé od nuly; předpokládá se normální dvourozměrné rozložení obou proměnných ([math]X[/math] a [math]Y[/math]). Statistika [math]T[/math] indikuje alternativní hypotézu a její nulová hodnota typicky ukazuje na ideální konzistenci dat a [math]H_0[/math] (proto název nulová hypotéza). Kritické hodnoty [math]T_\alpha [/math] ([math]\alpha[/math] se nazývá také kritickou hladinou) jsou pro jednotlivé testové situace publikovány ve statistických tabulkách. Rozšíření možností tohoto přístupu poskytují testy poměrem věrohodností, které umožňují např. provádět ověřování modelů v kontingenčních tabulkách a jejich postupné zjednodušování (i automatickou cestou).

3. Výběr ze dvou (nebo více) alternativních hypotéz při apriorní informaci je tzv. bayesovským rozhodovacím přístupem. Při známém rozložení zkoumaných veličin a apriorních pravděpodobnostech pro platnost jednotlivých hypotéz [math]P(H_1)[/math] ([math]P(H_2),\ \ldots , P(H_K)[/math]) jsou odvozeny aposteriorní pravděpodobnosti hypotéz [math]P(H_k/X)[/math], které vznikají kombinací apriorních vah a empir. evidence z dat [math]X[/math]. Tu zprostředkuje tzv. věrohodnostní funkce (pravděpodobnostní hustota, do níž jsou dosazeny hodnoty naměřených veličin [math]X=(X_1, X_2,\ \ldots , X_n)[/math] a která se stává funkcí neznámých parametrů). Spojení se provádí Bayesovou větou. Rozhodnutí o přijetí [math]H_K[/math] vychází z [math]P(H_K/X)[/math] přímo (přijímáme tu hypotézu, která má dostatečně vysokou aposteriorní pravděpodobnost) nebo vykazuje nejmenší hodnotu ztrátové funkce, kterou zavedeme do modelových úvah. Zákl. matem. princip se člení podle různých interpretačních škol především na: a) subjektivní chápání pravděpodobnostních apriorních vah i výsledných, empirií opravených rozhodovacích vah, b) empir. bayesovský přístup, vycházející z empir. odhadnutých apriorních vah pro jednotlivé hypotézy. Každý z uvedených přístupů má svá interpretační a praktická omezení a má také své metodol.-fil. a gnoseologické důsledky. Výsledky t.s.h. se stávají součástí statistické analýzy dat a interpretují se v jejím celkovém kontextu. Také volba hlediska významnosti ([math]\alpha [/math]), příp. požadované síly textu ([math]\beta [/math]), nebo požadované aposteriorní pravděpodobnosti pro přijetí hypotéz je výzk. (nejen statist.) rozhodnutím a závisí na riziku spojeném s nesprávnou interpretací a chybnými praktickými i teor. závěry.

statistical hypotheses testing tests d'hypothèses statistiques Prüfung der statistischen Hypothesen verifica delle ipotesi statistiche

Literatura: De Groot, M. H.: Optimal Statistical Decisions. New York 1970; Fisher, R. A.: Statistical Methods for Research Workers. Edinburgh 1925; Lehmann, E. L.: Testing Statistical Hypotheses. New York 1959; Miller, R. G. jr.: Simultaneous Statistical Inference. New York 1966; Raiffa, H. – Schlaifer: Applied Statistical Decision Theory. Boston 1961; Řehák, J. – Řeháková, B.: Analýza kategorizovaných dat v sociologii. Praha 1986; Zacks, S.: The Theory of Statistical Inference. New York 1971.

Jan Řehák