Statistika (MSgS)

Verze z 10. 11. 2018, 19:18, kterou vytvořil ZRN (diskuse | příspěvky) (Přidána poslední věta Viz též heslo statistiky ve Velkém sociologickém slovníku (1996))
(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)

statistika (MSgS)[1] značí: a) vědní disciplínu; b) praktickou činnost, spočívající v získávání a zpracování údajů o souborech jedinců; c) výsledky této praktické činnosti, tj. číselné údaje o souborech jedinců.

Pojem statistiky jako vědní disciplíny prodělal v historickém vývoji řadu změn a dosud není jednoznačně chápán. Nejčastěji se statistikou rozumí v současné době metodická vědní disciplína, jejímž předmětem jsou metody získávání, systematizace a vyhodnocování údajů o souborech jedinců, tj. statistické metody. Těchto metod se používá v nejrůznějších oblastech bádání a jednou z typických aplikačních oblastí je sociologie.

Nasazení statistických metod předpokládá, že je jasný účel výzkumu. Ve shodě s ním definuje statistika jedince (elementární jednotky, o nichž se získávají informace) a statistické znaky (měřitelné či počitatelné a prakticky zjistitelné znaky jedinců). Zjištění údajů o znacích jedinců je výchozí etapou statistické práce, která se nazývá statistické šetření či statistické zjišťování. To je možno koncipovat buď jako zjišťování vyčerpávající (zjištění znaků u všech jedinců zkoumaného souboru neboli populace), nebo jako zjišťování výběrové (viz výběrové metody zkoumání), při němž se získávají údaje o určitém počtu jedinců vybraných z populace (o tzv. vzorku).

V oblasti sociologických výzkumů přichází prakticky v úvahu pouze výběrové zjišťování.

Pracuje-li statistika s údaji výběrového zjišťování, je druhou fází statistické práce systematizace zjištěných údajů s cílem získat přehlednou a zhuštěnou informaci o vzorku.

Tato fáze počíná tříděním, jehož úkolem je vytvořit v souboru charakteristické a relativně homogenní skupiny. Na třídění navazuje a částečně se s ním prolíná další statistické zpracování, při němž jde především o získání představy o rozdělení četností jednotlivých statistických znaků a zejména pak o jejich korelaci.

Těmto účelům slouží některé prostředky elementární, zejména tabulky a grafy rozdělení četností a různé statistické charakteristiky, s jejichž pomocí se provádí shrnutí informace.

Třetí fází statistické práce je generalizace, při níž se z dat vzorku provádějí úsudky o populaci. Přitom jde jednak o statistické odhady, tj. zejména o odhady různých populačních charakteristik, jednak o ověřování určitých hypotéz o populačních charakteristikách či o populačních rozděleních (viz Testování statistických hypotéz). Statistickou generalizaci lze provádět tehdy, byl-li vzorek pořízen náhodným výběrem. Jejím teoretickým základem jsou pak poznatky počtu pravděpodobnosti.

V procesu získávání, zpracovávání a vyhodnocování informací tvoří statistické metody jen jednu, i když důležitou část. Vždy jim předchází a zejména pak na ně navazuje věcná analýza. Odtržení statistické analýzy od analýzy věcné vede k formalismu a zpravidla k chybnému hodnocení.

Literatura: Janko J., Jak vytváří statistika obrazy světa a života, díl 1. a 2., Praha, 1948; Morice E., Chartier F., Méthode statistique, Analyse statistique, Imperimerie Nationale, Paris, 1954; Romanovskij V. I., Matěmatičeskaja statistika, Moskva—Leningrad, 1938; Yule G. U., Kendall M. G., An Introduction to the Theory of Statistics, Griffin, London, 1958; Kendall M. G., Stuart A., The Advanced Theory of Statistics, Griffin, London, 1967;

Poznámky:

  1. Odkazy platí jen pro text tohoto hesla


Korelace

Pod tímto pojmem se někdy rozumí prostě souvislost. Ve statistice se jím chápe především typ souvislosti, tzv. korelační závislost a někdy i souhrn metod, jichž se užívá při jejím popisu.

Korelační závislost je kvantitativní závislostí, kdy změny závisle proměnné jsou podmiňovány jednak změnami jedné či většího okruhu nezávisle proměnných, jednak různými neuvažovanými vedlejšími a náhodnými vlivy.

Pro korelační závislost je příznačné to, že změny nezávisle proměnné (proměnných) vedou ke změnám průměrných hodnot závisle proměnné.

Korelační závislost dvou proměnných se nazývá jednoduchou korelací. Závislost jedné proměnné na větším počtu nezávisle proměnných se nazývá vícenásobnou (mnohonásobnou) korelací. V rámci vícenásobné korelace se velmi často zkoumá tzv. dílčí (parciální) korelace. Je to korelace mezi dvojicemi proměnných za předpokladu, že některé další proměnné jsou konstantní. Věcně jde v tomto případě o zkoumání korelace mezi dvěma proměnnými při dodatečném vyloučení vlivu některých proměnných dalších.

Při popisu korelační závislosti se nejprve vystihuje její průběh či forma, což je předmětem tzv. regresní analýzy. Jde o popsání toho, zda při změnách hodnot nezávisle proměnné (proměnných) průměrné hodnoty závisle proměnné rostou, klesají či kolísají a jakým způsobem.

K popisu průběhu korelační závislosti se používá tzv. regresních funkcí, které charakterizují to, jak se při změnách nezávisle proměnné (proměnných) mění průměrné hodnoty závisle proměnné. Za regresní funkce se volí různé funkce, známé z matematiky, nejčastěji pak funkce lineární. Typ regresní funkce lze někdy stanovit apriorně (na základě zkušenosti či logické úvahy), většinou se však volí teprve po posouzení průběhu závislosti v údajích získaných pozorováním.

Druhou stránkou zkoumání korelačních závislostí je zkoumání jejich těsnosti neboli korelační analýza. Těsností závislosti se rozumí stupeň vázanosti změn sledovaných proměnných. Čím více jsou změny závisle proměnné vázány na změny jedné či většího počtu nezávisle proměnných a čím méně tedy závisejí na vedlejších a náhodných vlivech, tím se považuje závislost za těsnější a naopak.

K měření těsnosti korelační závislosti slouží různé charakteristiky (viz Statistické charakteristiky), z nichž nejběžnější je korelační koeficient, jehož se užívá při lineární závislosti. Používání charakteristik těsnosti korelační závislosti jako charakteristik udávajících stupeň vázanosti změn proměnných předpokládá, že průběh závislosti byl popsán adekvátní regresní funkci. V opačném případě tyto charakteristiky těsnost závislosti podceňují a informují spíše o vhodnosti, případně nevhodnosti zvolené regresní funkce.

Korelační závislost je vnější závislostí. Může nastávat mezi znaky, které jsou příčinně podmíněné, stejně jako mezi znaky, kde nelze hledat příčinnou závislost. Z toho ovšem plyne, že metod regresní a korelační analýzy nelze používat k prokazování příčinných závislostí, jak se někdy neuváženě činí.

Ve sféře společenských jevů se naráží daleko častěji na vícenásobnou korelační závislost nežli na korelační závislost jednoduchou. Mnohdy však jsme nuceni provést určitou redukci korelovaných znaků pro různá praktická omezení (obtíže při kvantifikaci pojmů a jejich převedení na takové statistické znaky, které by byly registrovatelné, nemožnost získat údaje o některých znacích vzhledem k omezeným prostředkům aj.). Pokud se redukce týká i některých podstatných příčinných znaků, je třeba výsledky, k nimž se dospěje při regresní a korelační analýze, interpretovat velmi opatrně.

Efektivně lze pak regresních a korelačních metod využít u takových veličin, jejichž vztahy vykazují v čase určitý stupeň stability, takže jednou provedený popis korelační závislosti je možno zužitkovat i v následujících obdobích. Vztahy mezi jevy, které se relativně rychle mění, nemá význam pomocí těchto metod popisovat a vyhodnocovat. Jejich užití v takových případech vedlo nejednou k závažným věcným chybám.

Literatura: Čuprov A. A., Osnovnyje problemy teorii koreljacii, Gosstatizdat, Moskva, 1960; Egermayer Fr., Novák I., Regresní a korelační analýza pro ekonomy, Praha, 1964; Ezekiel M., Fox K. A., Methods of Correlation and Regression Analysis, Linear and Curvilinear, J. Wiley, New York, 1959; Lukomskij J. I., Těorija koreljacii i jeho promeněnije k analizu proizvodstva, Gosstatizdat, Moskva, 1958.

Počet pravděpodobnosti

Počet pravděpodobnosti je matematická disciplína zabývající se studiem hromadných náhodných jevů. Náhodným jevem je takový jev, který je podmiňován vedle komplexu základních podmínek náhodnými činiteli.

Realizace podmínek, za nichž může náhodný jev nastat, se nazývá náhodným pokusem. Lze-li pak náhodný pokus neomezeně opakovat, nazývá se náhodný jev hromadným jevem.

Mírou objektivní možnosti výskytu hromadného náhodného jevu je jeho pravděpodobnost, nabývající hodnot mezi 0 a 1. Přitom pravděpodobnost nemožného jevu (jevu, který za daných podmínek nemůže nastat) je rovna 0, pravděpodobnost jistého jevu (jevu, který za daných podmínek nutně nastane) je rovna 1.

Provádí-li se určitý náhodný pokus, může při něm dojít k různým výsledkům, z nichž některé mají nevyhnutelně za následek nastoupení sledovaného náhodného jevu, jiné je vylučují. Jsou-li všechny výsledky stejně možné a je-li jich konečný počet, lze numerickou hodnotu pravděpodobnosti náhodného jevu stanovit podle klasické definice pravděpodobnosti jako poměr počtu výsledků, majících za následek nastoupení sledovaného náhodného jevu k celkovému počtu výsledků pokusu.

Není-li shora uvedený předpoklad splněn, odhaduje se pravděpodobnost náhodného jevu statisticky jako relativní četnost (viz Rozdělení četností) výskytu daného jevu v mnohokrát opakovaných pokusech.

Veličiny, jejichž hodnoty jsou jednoznačně určeny provedením náhodného pokusu, se nazývají náhodnými veličinami. Náhodnými veličinami jsou mimo jiné i výběrové charakteristiky, pokud uvažujeme náhodný výběr jedinců z populace.

Vyčerpávající informace o náhodné veličině je podána tehdy, popíše-li se zákon jejího rozdělení. Studium těchto zákonů je jedním z důležitých úseků počtu pravděpodobnosti. Nejdůležitějším zákonem rozdělení náhodných veličin je tzv. normální rozdělení, na němž je ve statistice budována teorie velkých výběrů (viz Výběrové metody zkoumání).

Všeobecně lze říci, že na zákonech počtu pravděpodobnosti spočívá statistická generalizace, tj. teorie odhadu (viz Statistický odhad) a teorie testování hypotéz (viz Testování statistických hypotéz).

Literatura: Dupač V., Hájek J., Pravděpodobnost ve vědě a technice, Praha, 1962; Feller W., An Introduction to Probability Theory and its Applications, New York, 1950; Glivensko V. I., Teorie pravděpodobnosti, Praha, 1950; Gněděnko B. V., Kurs těoriji verojatnostěj, Moskva, 1950; Mosteller F., Rourke R., Thomas F., Probability and Statistics, Massachusetts, 1961.

Rozdělení četností

Rozdělení četností je sestava charakterizující absolutní či relativní počty výskytů (četnosti či relativní četnosti) variant jednoho znaku (jednorozměrné rozdělení četností) či kombinací variant většího počtu znaků (vícerozměrné rozdělení četností). V užším smyslu se rozdělením četností rozumí sestava tohoto druhu, týkající se pouze znaků kvantitativních.

Rozdělení četností se popisuje tabulkou rozdělení četností. Jde-li o jednorozměrné rozdělení kvalitativního znaku, uvádějí se v této tabulce varianty znaku a jim se přiřazují četnosti, případně relativní četnosti. Rozdělení četností nespojitého kvantitativního znaku se popisuje tabulkou, v níž se četnosti či relativní četnosti přiřazují hodnotám znaku. Konečně rozdělení četností spojitého kvantitativního znaku se popisuje tabulkou intervalového rozdělení četností. Sestavíme ji tak, že nejprve celý interval hodnot znaku rozdělíme na určitý počet dílčích, obvykle stejně širokých intervalů, a poté stanovíme četnosti a relativní četnosti pro všechny dílčí intervaly. Bývá pak zvykem přiřazovat četnosti a relativní četnosti středům intervalů.

Graficky se jednorozměrná rozdělení četností kvantitativních znaků znázorňují polygony (mnohoúhelníky) četností. Při jejich konstrukci se na vodorovnou osu vynášejí jako body hodnoty znaku (nebo středy intervalů u znaků spojitých) a v nich se vyznačují délkami kolmých úseček buď četnosti, nebo relativní četnosti. Koncové body úseček se pak spojují. Z polygonu četností poznáváme především tvar rozdělení (zda je rozdělení jednovrcholové, vícevrcholové, symetrické, asymetrické apod.).

Různá jednorozměrná rozdělení četností kvantitativních znaků se liší různými vlastnostmi. V sociologických aplikacích si všímáme především polohy rozdělení (abychom získali představu o úrovni znaku) a jeho variability (abychom získali představu o diferencovanosti znaku). Jiných vlastností (jako je třeba šikmost či špičatost) rozdělení si prakticky nevšímáme.

Provádíme-li pak zhuštěný popis rozdělení statistickými charakteristikami, omezujeme se jen na charakteristiky polohy a na charakteristiky variability rozdělení. Polohu charakterizuje aritmetický průměr, z charakteristik variability se volí směrodatná odchylka a variační koeficient (viz Statistické charakteristiky).

Vícerozměrná rozdělení četností zkoumáme hlavně z hlediska závislosti sledovaných znaků. Přitom nás zajímá těsnost závislostí a u kvantitativních znaků i regrese (viz Korelace). Při zhuštěném popisu obou těchto stránek závislosti se používá různých charakteristik, z nichž nejširší aplikace v sociologii doznaly regresní koeficient, korelační koeficient, koeficient pořadové korelace a koeficient konkordance (viz Statistické charakteristiky).

Literatura: Cyhelský L., Novák J., Statistika, I, Praha, 1967; Ehrenfeld S., Littauer S., Introduction to Statistical Method, McGraw-HilI, New York—London, 1964; Janko J., Jak vytváří statistika obrazy světa a života, I. a II. díl, Praha 1947, 1948.

Statistické charakteristiky

Statistické charakteristiky jsou čísla s jednoznačně definovaným způsobem výpočtu, jimiž se zhušťují informace.

V sociologických aplikacích jsou velmi rozšířenou soustavou statistických charakteristik charakteristiky jednorozměrných a vícerozměrných rozdělení četností kvantitativních znaků. Jako charakteristik jednorozměrných rozdělení četností se užívá zejména aritmetický průměr jako charakteristika polohy rozdělení (charakteristika úrovně znaku), rozptyl či směrodatná odchylka jako charakteristika absolutní a variační koeficient jako charakteristika relativní variability znaku.

U vícerozměrných rozdělení četností jde především o zkoumání závislosti znaků, tj. o regresi a korelaci. Z charakteristik, které zde přicházejí v úvahu, jsou nejčastěji používány regresní a korelační koeficient (při lineární závislosti), koeficient pořadové korelace a koeficient konkordance (shody).

Výpočtem aritmetického průměru, směrodatné odchylky, variačního koeficientu, regresního a korelačního koeficientu se získává zhuštěná představa o celém rozdělení četností, užitečná zejména v případech, kdy je nutno provádět srovnávání řady různých rozdělení.

Aritmetický průměr, který je vůbec nejběžnější ze statistických charakteristik, je definován jako podíl úhrnu hodnot kvantitativního znaku v souboru a počtu jednotek souboru. Je to číslo, které charakterizuje úroveň znaku a někdy bývá interpretován i jako typická hodnota. Tato interpretace je možná tehdy, pokud sledovaný znak vykazuje jednovrcholové rozdělení četností a malou variabilitu. V opačném případě průměr za typickou hodnotu považovat nelze.

Rozptyl, směrodatná odchylka a variační koeficient jsou nejčastěji používané míry variability. Charakterizují, jak se jednotlivé hodnoty znaku v souboru liší jednak od aritmetického průměru, jednak vzájemně mezi sebou.

Rozptyl je definován jako podíl úhrnu čtvercových odchylek jednotlivých hodnot znaku od aritmetického průměru a počtu jednotek v souboru. Je tedy průměrnou čtvercovou odchylkou. Směrodatná odchylka je pak jeho druhou odmocninou. Variační koeficient jako charakteristika relativní variability znaku je definován jako podíl směrodatné odchylky a aritmetického průměru. Používá se při porovnávání měnlivosti dvou různých statistických znaků nebo při srovnávání variability jednoho znaku v různých statistických souborech, ve kterých je sledovaný znak vyjádřen v různých měrných jednotkách.

Z vícerozměrných rozdělení četností se nejčastěji setkáváme s dvourozměrným. Nejpoužívanějšími charakteristikami tohoto rozdělení četností jsou regresní a korelační koeficient. Jsou to charakteristiky lineární závislosti kvantitativních znaků. Regresní koeficient udává, jaká průměrná změna závisle proměnné odpovídá jednotkové změně nezávisle proměnné. Je směrnicí regresní přímky a používá se k odhadům změn závisle proměnné ze známých změn nezávisle proměnné. Korelační koeficient je mírou těsnosti lineární závislosti. Nabývá hodnot z intervalu [math]\lt -1,1 \gt [/math] a blíží se tím více 1, čím je těsnější přímá lineární závislost, tím více nule, čím je závislost volnější (slabší), a tím více -1, čím je těsnější nepřímá lineární závislost. Jeho čtverec — koeficient determinace — udává, z kolika procent lze rozptyl závisle proměnné vysvětlit lineární funkci jedné nezávisle proměnné.

U trojrozměrných a vícerozměrných rozdělení četností se jako charakteristik používá zejména dílčího regresního a dílčího korelačního koeficientu a koeficientu mnohonásobné korelace. Dílčí regresní koeficient udává, jaká průměrná změna závisle proměnné odpovídá jednotkové změně jedné z nezávisle proměnných, jsou-li ostatní nezávisle proměnné konstantní. Dílčí korelační koeficient měří těsnost lineární závislosti dvou proměnných opět za předpokladu, že zbývající nezávisle proměnné jsou konstantní. Nabývá hodnot z intervalu [math]\lt -1,1 \gt [/math] a interpretuje se stejně, jako jednoduchý korelační koeficient. Konečně koeficient mnohonásobné korelace udává, jak těsná je lineární závislost určité proměnné na větším počtu nezávisle proměnných. Nabývá hodnot z intervalu [math]\lt 0,1 \gt [/math] a je tím vyšší, čím je závislost těsnější.

V některých případech nás zajímá pouze souvislost pořadí prvků podle velikosti sledovaných znaků. Jde-li o souvislost pouze dvou pořadí, používá se k měření stupně jejich shody koeficientu pořadové korelace. Tento koeficient nabývá opět hodnot z intervalu [math]\lt -1,1 \gt [/math]. Jeho hodnoty interpretujeme obdobně jako hodnoty korelačního koeficientu s tím, že závěry platí pro souvislost pořadí. U závislostí, vyznačujících se tím, že při růstu hodnot jednoho znaku dochází bud k trvalému růstu, či k trvalému poklesu hodnot znaku druhého, lze koeficient pořadové korelace chápat i jako míru těsnosti závislosti daných znaků, přičemž jeho použitelnost není omezena jen na lineární závislost.

Stupeň shody většího počtu pořadí pak měří tzv. koeficient konkordance (shody). Koeficient konkordance nabývá hodnot z intervalu [math]\lt 0,1 \gt [/math]; jedné se blíží tím více, čím je větší shoda všech pořadí, nule se blíží tím více, čim je shoda všech pořadí menší.

Použitím kterékoli statistické charakteristiky se získá shrnutá informace o určité vlastnosti zkoumaného znaku, avšak ztrácí se zároveň původní informace. Proto se k ucelenému popisu sledovaného souboru používá nikoli jedné charakteristiky, ale celé soustavy statistických charakteristik, které se vzájemně doplňují a dávají tak komplexnější obraz o sledovaných znacích v souboru.

Literatura: Cyhelský L., Novák J., Statistika, I, Praha, 1967; Janko J., Jak vytváří statistika obrazy světa a života, I. II. díl, Praha, 1947, 1948; Obecné metody statistiky, Praha, 1959; Siegel S., Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill, New York—London, 1956; Yule G. U., Kendall M. G., An Introduction to the Theory of Statistics, London, 1958.

Statistický odhad

Statistický odhad je: a) odhad empirických charakteristik na základě modelu a b) odhad populačních charakteristik na základě dat získaných náhodným výběrem (viz Výběrové metody zkoumání). V sociologii přicházíme do styku s významem pojmu, uvedeným sub b), na nějž se omezíme.

K odhadům populačních charakteristik se využívá jednak odhadů bodových, jednak odhadů intervalových.

Bodovým odhadem se rozumí odhad populační charakteristiky jedním číslem. Podle vlastností, které mají bodové odhady splňovat, rozeznává statistická teorie jejich různé druhy, z nichž často používané jsou zejména tzv. nestranné (též nezkreslené nebo nevychýlené) odhady, které mají zaručit, aby při odhadech populačních charakteristik nedocházelo k systematickému podhodnocování nebo nadhodnocování.

Při používání bodových odhadů je třeba mít na paměti to, že se mohou někdy i výrazněji lišit od skutečné hodnoty populační charakteristiky. Proto je vhodné užívat odhadů intervalových.

Intervalovým odhadem se rozumí udání intervalu hodnot (tzv. intervalu spolehlivosti), který se zvolenou pravděpodobností pokrývá hodnotu populační charakteristiky. Čím vyšší je tato pravděpodobnost, tím je odhad spolehlivější, čím užší je interval spolehlivosti, tím je odhad přesnější. Požadavky na přesnost odhadu vyplývají z cíle zkoumání. Pokud jde o spolehlivost, vžilo se v nejrůznějších oborech používání 95 % spolehlivosti, tj. spolehlivosti, při níž vzniká jen 5% riziko, že provedený odhad bude chybný.

Bodovými a intervalovými odhady lze odhadovat nejrůznější statistické charakteristiky. V sociologické praxi se naráží nejčastěji na odhady aritmetického průměru a úhrnu, relativní a absolutní četnosti a na odhady regresních a korelačních koeficientů (viz Statistické charakteristiky).

Literatura: Čermák V., Statistika, II, Praha, 1968; Hájek J., Teorie pravděpodobnostního výběru, s aplikacemi na výběrová zjišťování, Praha, 1960; Yates F., Sampling Methods for Censuses and Surveyes, London, 1949.

Testování statistických hypotéz

Testování statistických hypotéz je označení postupů, které vedou na základě dat získaných náhodným výběrem k přijetí či zamítnutí hypotéz o statistických charakteristikách nebo o rozdělení znaků.

Test statistické hypotézy je pravidlo, podle něhož na základě výběrových výsledků rozhodneme, zda ověřovanou hypotézu, která se nazývá hypotézou nulovou, přijmeme nebo zda ji zamítneme a přijmeme jinou, alternativní hypotézu. Alternativní hypotéza je kterákoli z přípustných hypotéz různá od hypotézy testované (nulové). Popírá-li alternativní hypotéza pouze platnost hypotézy testované, jde o dvoustranné testy, jestliže jednostranně vymezuje hodnoty testovaných charakteristik, jde o jednostranné testy.

Při testu statistické hypotézy může vzniknout chyba dvojího druhu:

  1. Zamítne se nulová hypotéza, je-li ve skutečnosti správná (tzv. chyba prvního druhu). Pravděpodobnost této chyby se obvykle značí [math]\alpha[/math], nazývá se hladina významnosti. Zpravidla se pracuje s 5% nebo s 1% hladinou významnosti.
  2. Přijme se nulová hypotéza, je-li ve skutečnosti nesprávná (tzv. chyba druhého druhu). Pravděpodobnost této chyby se obvykle značí [math]\beta[/math] a její doplněk do jednotky [math]1 - \beta[/math] udává sílu testu.

Postup při testování hypotéz vychází z volby testového kritéria, které je funkcí výběrových dat. Na základě pravděpodobnostního rozdělení testového kritéria se volí pro zvolenou hladinu významnosti tzv. kritická hodnota, která vymezuje tzv. kritický obor a obor přijetí. Padne-li hodnota testového kritéria do kritického oboru, hypotéza se zamítne, v opačném případě se přijímá. Přijetí testované hypotézy znamená, že daným výběrem nebyla prokázána její nesprávnost, zamítnutí testované hypotézy pak znamená její nesprávnost.

Nejčastěji se testují hypotézy o základních populačních charakteristikách (průměr, relativní četnost, rozptyl, regresní a korelační koeficient aj.), jejich rozdílu, o rozdělení v základním souboru (v populaci) a o shodě dvou empirických rozdělení.

Literatura: Hátle J., Novák I., Statistické metódy v sociologickom výskume, Bratislava, 1968; Leman E., Prověrka statističeskich gipotěz, překlad z angličtiny, Izd. Nauka, Moskva, 1964; Siegel S., Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill, New York—London, 1956.

Třídění

Třídění je výchozí metoda zpracování zjištěných dat, spočívající v rozčlenění souboru do relativně homogenních skupin podle jednoho či více znaků — tzv. třídících znaků. Třídění podle jednoho znaku se nazývá jednostupňovým (někdy též skupinovým), třídění podle většího počtu znaků pak vícestupňovým (někdy též kombinačním).

Třídění se používá pro různé účely. Často je jeho účelem vytvoření takových skupin, které lze považovat za typy výrazně se lišící svým místem v životě společnosti, svými vlastnostmi, vývojovými tendencemi apod. (například třídění obyvatelstva do sociálních skupin). Třídění je dále nezbytným prostředkem analýzy struktury souboru podle jednoho či několika hledisek. Konečně je třídění i elementární metodou sloužící ke zkoumání závislosti dvou či více znaků.

Základními metodickými problémy třídění jsou volba třídících (třídícího) znaků a volba a vymezení skupin, do nichž se třídí. Jejich úspěšné řešení vyžaduje často značnou praxi v oboru, zejména pak tehdy, chce-li se tříděním dosáhnout vytvoření výrazných sociálních či ekonomických typů, kde je nutno nezřídka používat řady různých třídících znaků.

Třídění může být považováno za správné, jsou-li při něm dodržovány i některé zásady logické. Zejména je třeba dbát, aby třídění bylo úplné a jednoznačné. Úplnost třídění znamená, že každého jedince souboru lze zařadit do některé skupiny. Jednoznačným je pak třídění tehdy, vylučují-li se jednotlivé skupiny a nemůže-li tedy dojít k dvojímu zatřídění téhož jedince.

Literatura: Gračov N. G., Statistische Gruppenbildung, die Wirtschaft, 1953; Obecné metody statistiky, Praha, 1959.

Výběrové metody zkoumání

Výběrové metody zkoumání jsou metody, kde provádíme úsudky o určitém souboru jedinců (tzv. základním souboru či populaci) na základě informací o souboru jedinců, který z něho byl určitým způsobem vybrán (tzv. výběrový soubor či vzorek). Pod pojem výběrových metod zkoumání se tedy zahrnuje: a) vlastní výběr reprezentativního vzorku; b) zjištění sledovaných znaků u vybraných jednotek; c) provedení úsudků o základním souboru na základě výběrových dat.

Při pořizování vzorku z populace lze použít různých technik, které lze v zásadě dělit na techniky záměrného výběru a na techniky náhodného výběru.

Záměrným výběrem se rozumí výběr, při němž se na základě zkušeností určuje, jací jedinci populace mají být pojati do vzorku, aby jej bylo možno považovat za reprezentativní pro posouzení daného problému. Často jde o výběr tzv. typických jedinců. V sociologii se z technik záměrného výběru užívá často tzv. výběru kvótního, při němž se populace podle určitých znaků roztřídí do skupin a předepíše se, kolik jedinců se má z každé skupiny vybrat. Provedení záměrného výběru předpokládá vždy značnou zkušenost vybírajícího a určité předběžné informace o populaci, jichž by bylo možno použít k zajištění reprezentativnosti. Podstatnou nevýhodou záměrného výběru je to, že nedovoluje kvantitativní vyhodnocení přesnosti a spolehlivosti úsudků o populaci z dat, zjištěných ze vzorku. Nepříznivě se projevuje i to, že záměrný výběr je zatížen subjektivními momenty (názor na typičnost jedinců je často jen subjektivním názorem vybírajících), což může vést ke značnému zkreslení informací o populaci.

Uvedené nedostatky vedou statistiku k tomu, že dává přednost náhodným výběrům, při nichž o tom, kteří jedinci budou pojati do vzorku, rozhoduje pouze náhoda. Při náhodném výběru má každý jedinec populace stejnou nebo různou, ale předem stanovenou možnost, že bude pojat do vzorku. Náhodnost vybírání jedinců se zajišťuje různými postupy. Patří mezi ně losování, používání tabulek náhodných čísel aj. Nespornou předností náhodného výběru je kromě skutečnosti, že nepodléhá subjektivním momentům to, že je při něm možno využít poznatků počtu pravděpodobnosti ke kvantitativnímu vyhodnocení přesnosti a spolehlivosti úsudků, jež se z výběrových dat provádějí o populaci.

Tyto úsudky jsou dvojího druhu. Především se na základě výběrových dat provádějí odhady populačních charakteristik (viz Statistický odhad), za druhé se výběrových dat používá k ověřování hypotéz o populačních charakteristikách či o rozdělení v populaci (viz Testování statistických hypotéz).

Při určování přesnosti a spolehlivosti odhadů populačních charakteristik i při ověřování hypotéz se používá různých konkrétních postupů, které se nadto modifikují jednak podle toho, zda se používá vzorků velkého rozsahu či vzorků malého rozsahu, jednak podle toho, jaké varianty náhodného výběru bylo použito.

Za vzorky malého rozsahu se často považují vzorky o rozsahu menším než 30 jedinců, přesně je však ohraničit nelze. Důležité je si obecně uvědomit, že k vyhodnocování dat ze vzorků, jež mají jen několik desítek jedinců, nelze použít postupů, jichž se využívá při vyhodnocování dat ze vzorků majících již několik stovek či několik tisíc jedinců.

Z mnoha různých variant náhodného výběru se při sociologických průzkumech využívá zejména prostého náhodného výběru, oblastního výběru, vícestupňového výběru a výběru skupin.

Prostým náhodným výběrem se rozumí přímý výběr jedinců z populace. Oblastním nebo též stratifikovaným výběrem se rozumí výběr, při němž se nejprve populace podle určitých znaků rozdělí do skupin (tzv. oblastí nebo strat) a poté se v každé skupině provede prostý náhodný výběr. Vícestupňovým výběrem se rozumí výběr prováděný v několika stupních, přičemž se počíná vybíráním skupin jedinců a teprve končí vybíráním jedinců samotných. Nejjednodušší z vícestupňových výběrů, tzv. dvoustupňový výběr, se provádí tak, že se v prvém stupni náhodně vyberou skupiny jedinců (například obce) a z náhodně vybraných skupin se pak ve druhém stupni vyberou opět náhodně jedinci (například domácnosti). Dvoustupňový výběr, při němž se ve druhém stupni vybírají do vzorku všichni jedinci, je pak výběrem skupin. K modifikacím náhodného výběru se sahá buď s cílem získat přesnější a spolehlivější odhady, nebo s cílem zajistit co nejméně nákladné pořízení dat.

Literatura: Cochran W. G., Sampling Techniques, Wiley, New York—London, 1963; Čermák V., Statistika, II, Praha, 1968; Hájek J., Teorie pravděpodobnostního výběru s aplikacemi na výběrová zjišťování, Praha, 1960; Yates F., Sampling Methods for Censuses and Surveyes, Griffin, London 1960; Noellová E., Výzkum veřejného mínění, Praha, 1968.

Ilja Novák


Viz též heslo statistiky ve Velkém sociologickém slovníku (1996)