Popis:
Vícerozměrné statistické metody představují velice užitečný nástroj pro uchopení, zjednodušení a vizualizaci velmi složitých dat. Použitelnost těchto metod v přírodních vědách je velmi široká, často se s nima setkáváme nejenom v ekologii, experimentální biologii, medicíně, antropologii, environmentální chemii, ale i v geografii a geologii. Zpracování rozsáhlých biologických a hlavně ekologických dat se bez znalosti vícerozměrných statistických metod již neobejde. Na druhou stranu mohou v případě nesprávného užití vést k zavádějícím výsledkům, jejichž chybnost nemusí být ovšem na první pohled zřejmá, protože je skryta za složitou strukturou dat a komplikovaností výpočtu. Znalost vícerozměrných statistických metod se tak stala nutnou součástí biologického vzdělání.
Cílem tohoto učebního textu není podrobný teoretický výklad jednotlivých typů vícerozměrných analýz, ale ve stručné a přehledné formě představit postupy analýz, objasnit základy jejich využití včetně potenciálně slabých míst a poskytnout návody ke správné interpretaci výsledků.
Dostupnost nových studijních materiálů, kterých je v současné době stále nedostatek, by měla přispět k zvýšení odbornosti studentů matematické biologie i dalších přírodovědných oborů.
Česká a ani anglická terminologie používána v dostupné literatuře není zcela stabilizovaná a často se stává, že tytéž metody jsou v různých učebnicích a statistických programech uváděny různými názvy. Z tohoto důvodu uvádíme jak anglické názvy metod, tak i české alternativní názvy.
Klíčová slova:
datové podklady
asociační koeficienty
shluková analýza
ordinační analýza
kanonická ordinační analýza
Obsah:
- 1 Úvod -5-
1.1 Smysl a cíle vícerozměrné analýzy dat -5-
1.2 Statistické software pro vícerozměrnou analýzu dat -6-
1.3 Parametrická a neparametrická vícerozměrná statistika -6-
2 Datové podklady -8-
2.1 Typy dat -8-
2.2 Možné problémy dat a jejich řešení -9-
2.2.1 Chybějící data -9-
2.2.2 Transformace dat -10-
2.2.3 Standardizace dat -11-
2.2.4 Problém dvou nul (double zero problem) -13-
3 Vícerozměrné normální rozdělení -15-
3.1 Vícerozměrné charakteristiky rozdělení -17-
3.1.1 Medoid -17-
3.2 Wishartovo rozdělení -17-
3.3 Hotellingovo rozdělení -18-
4 Základy maticové algebry -19-
4.1 Asociační matice -20-
4.2 Speciální matice -21-
4.3 Vektory a normalizace -22-
4.4 Sčítání a násobení matic -23-
4.5 Determinant matice -25-
4.6 Hodnost matice -27-
4.7 Inverzní matice -28-
4.8 Vlastní hodnoty a vlastní vektory matice -29-
4.9 Rozklad na singulární hodnoty (SVD) -32-
5 Asociační koeficienty -33-
5.1 Asociační koeficienty mezi proměnnými -33-
5.2 Asociační koeficienty mezi objekty - metriky vzdálenosti -34-
5.3 Asociační koeficienty mezi objekty - koeficienty podobnosti -40-
5.3.1 Symetrické binární koeficienty -41-
5.3.2 Asymetrické binární koeficienty -42-
5.3.3 Symetrické kvantitativní koeficienty -43-
5.3.4 Asymetrické kvantitativní koeficienty -46-
6 Shluková analýza -49-
6.1 Hierarchické shlukování -50-
6.1.1 Hierarchické aglomerativní shlukování -50-
6.1.2 Hierarchické divizivní shlukování -57-
6.2 Nehierarchické shlukování -60-
6.2.1 Metoda K-průměrů (K-means clustering) -60-
6.2.2 Metoda X-průměrů (X-means clustering) -61-
6.2.3 Metoda K-medoidů: PAM (K-medoids method: partitioning around medoids) -62-
6.3 Určení optimálního počtu shluků -63-
6.3.1 Analýza rozptylu (ANOVA) -63-
6.3.2 Dunnův validační index (Dunn’s validity index) -63-
6.3.3 Daviesův-Bouldinův validační index (Davies-Bouldin validity index) -64-
6.3.4 Validační metoda siluety -64-
6.3.5 Izolační index (Isolation index) -65-
6.3.6 C-index -65-
6.3.7 Goodmanův-Kruskalův index (Goodman-Kruskal index) -66-
6.3.8 Meansim (MSA) -66-
6.4 Shluková analýza: shrnutí -67-
7 Ordinační analýza -68-
7.1 Úvod -68-
7.1.1 Ordinační analýza - jeden výsledek, několik interpretací -71-
7.1.2 Interpretace os ordinační analýzy jako environmentálních gradientů -72-
7.2 Analýza hlavních komponent a faktorová analýza -73-
7.2.1 Analýza hlavních komponent (PCA, principal component analysis) -73-
7.2.2 Faktorová analýza (Factor analysis) -80-
7.2.3 Analýza hlavních komponent a faktorová analýza: shrnutí -83-
7.3 Korespondenční analýza (CA, correspondence analysis) a detrendovaná korespondenční analýza (DCA, detrended correspondence analysis) -83-
7.3.1 Korespondenční analýza (CA, correspondence analysis) -83-
7.3.2 Detrendovaná korespondenční analýza (detrended correspondence analysis, CA) -89-
7.3.3 Korespondenční analýza a detrendovaná korespondenční analýza: shrnutí -92-
7.4 Analýza hlavních koordinát (PCoA, principal coordinate analysis, metric multidimensional scaling) -92-
7.5 Nemetrické mnohorozměrné škálovaní (NMDS, nonmetric multidimensional scaling) -93-
7.5.1 Mnohorozměrné škálovaní: shrnutí -96-
8 Kanonická ordinační analýza -97-
8.1 Úvod -97-
8.2 Kanonická korespondenční analýza (CCA, canonical correspondence analysis) -97-
8.3 Redundanční analýza (RDA, redundancy analysis) -102-
8.4 Kanonická korelační analýza (CCorA, canonical correlation analysis) -103-
8.4.1 Kanonická analýza: shrnutí -104-
8.5 Diskriminační analýza (Discriminant function analysis, Canonical variate analysis) -104-
8.5.1 Kanonická diskriminační analýza -106-
8.5.2 Klasifikační diskriminační analýza -108-
8.5.3 Diskriminační analýza: shrnutí -109-
9 Ordinační metody v ekologii společenstev -110-
9.1 Unimodální a lineární model odezvy druhu na gradient prostředí -111-
9.2 Přímá a nepřímá gradientová analýza -112-
9.3 Hybridní analýza -112-
9.4 Parciální ordinační analýza -112-
10 Seznam použité literatury -113-