Popis:
1.1 Smysl a cíle vícerozměrné analýzy dat
Veškerý svět kolem nás je vícerozměrný. Kromě vnímání třírozměrného tvaru můžeme kaž-dý objekt popsat celou řadou dalších charakteristik, jako je třeba barva, hmotnost, chuť atd. Přes tuto skutečnost, kterou vnímáme každý den, je pro nás ovšem problémem představit si tento stav popsaný ve formě datové tabulky nebo jej dokonce nějakým způsobem popsat jinému člověku - nastává zde tedy místo pro speciální typ analýzy, vícerozměrnou analýzu. Metody vícerozměrné analýzy jsou velmi užitečným prostředkem pro explorativní analýzu složitých dat.
Ačkoliv klasická statistika zná řadu způsobů popisu jednotlivých měřených nebo pozorova-ných proměnných, je pro nás v případě hodnocení velkého množství proměnných velmi obtížné si tyto výstupy poskládat do jednolitého obrazu vedoucího k pochopení podstaty. Právě víceroz-měrná analýza dat je nástrojem sloužícím k usnadnění tohoto procesu a její přínos lze shrnout následovně:
• nalezení smysluplných pohledů na data popsaná velkým množstvím proměnných;
• nalezení a popsání skrytých vazeb mezi proměnnými a tím zjednodušení jejich struktury;
• jednoduchá vizualizace dat, kdy se v jediném grafu skrývá informace např. z 20 proměn-ných;
• umožnění a/nebo zjednodušení interpretace dat na základě jejich zjednodušení a vizualizace.
Ačkoliv je v případě vícerozměrných analýz používána celá řada matematických postupů, jedno mají všechny tyto analýzy společné - hledání souvislostí a jejich výklad.
Na tomto místě musíme uvést i nevýhody vícerozměrné analýzy dat. Zjednodušení víceroz-měrného problému je možné pouze tehdy, kdy existuje vazba mezi naměřenými proměnnými. Pokud by mezi nimi žádná vazba neexistovala, nebo byla velmi slabá, nemá smysl vícerozměrné metody používat.
Dalším problémem může být nesprávné použití metody, které může vést k zavádějícím vý-sledkům. Při zpracovávání vícerozměrných dat ovšem nemusí být tato chyba patrná, protože je zakryta složitou strukturou dat a náročností výpočtu.
Příklady užití vícerozměrných metod můžeme najít v různých oblastech, nejen v přírodovědných a medicínských oborech, ale také v technice, kybernetice, sociologii, ekonomii i marketingu. Z oblasti biologických věd můžeme zmínit aplikace v ekologii, ekotoxikologii, taxonomii, etologii, antropologii atd. Konkrétně z ekologie můžeme uvést využití mnohorozměr-ných metod např. při hodnocení vlivu environmentálních změn na biologická společenstva, klasi-fikaci vegetačních i půdních společenstev, atd.
Klíčová slova:
datové podklady
shluková analýza
ordinační analýza
ordinační analýza
ekologie společenstva
Obsah:
- Předmluva 2
1 Úvod 3
1.1 Smysl a cíle vícerozměrné analýzy dat 3
1.2 Statistický software pro vícerozměrnou analýzu dat 3
1.3 Parametrická a neparametrická vícerozměrná statistika 4
2 Datové podklady 5
2.1 Typy dat 5
2.2 Možné problémy dat a jejich řešení 6
2.2.1 Chybějící data 6
2.2.2 Transformace dat 7
2.2.3 Standardizace dat 8
2.2.4 Problém dvou nul 10
3 Vícerozměrná rozdělení 11
3.1 Charakteristiky vícerozměrných rozdělení 11
3.1.1 Medoid 11
3.2 Mnohorozměrné normální rozdělení 11
3.3 Wishartovo rozdělení 13
3.4 Hotellingovo rozdělení 14
4 Asociační koeficienty 15
4.1 Asociační koeficienty mezi proměnnými 15
4.2 Asociační koeficienty mezi objekty - metriky vzdálenosti 16
4.3 Asociační koeficienty mezi objekty - koeficienty podobnosti 21
4.3.1 Symetrické binární koeficienty 22
4.3.2 Asymetrické binární koeficienty 22
4.3.3 Symetrické kvantitativní koeficienty 24
4.3.4 Asymetrické kvantitativní koeficienty 26
5 Shluková analýza 29
5.1 Hierarchické shlukování 30
5.1.1 Hierarchické aglomerativní shlukování 30
5.1.2 Hierarchické divizivní shlukování 37
5.2 Nehierarchické shlukování 40
5.2.1 Metoda K-průměrů 40
5.2.2 Metoda X-průměrů 41
5.2.3 Metoda K-medoidů 42
5.3 Určení optimálního počtu shluků 43
5.3.1 Analýza rozptylu 43
5.3.2 Dunnův validační index 43
5.3.3 Daviesův-Bouldinův validační index 43
5.3.4 Validační metoda siluety 43
5.3.5 Izolační index 44
5.3.6 C-index 45
5.3.7 Goodmanův-Kruskalův index 45
5.3.8 Analýza rozptylu vzdáleností shluků (meansim) 45
5.4 Shluková analýza: shrnutí 46
6 Ordinační analýza 47
6.1 Principy ordinačních analýz 47
6.1.1 Interpretace výsledků ordinační analýzy 50
6.1.2 Interpretace os ordinační analýzy jako environmentálních gradientů 50
6.1.3 Typy ordinačních metod 51
6.2 Analýza hlavních komponent a faktorová analýza 51
6.2.1 Analýza hlavních komponent 52
6.2.2 Faktorová analýza 60
6.2.3 Analýza hlavních komponent a faktorová analýza: shrnutí 62
6.3 Korespondenční analýza a detrendovaná korespondenční analýza 63
6.3.1 Korespondenční analýza 63
6.3.2 Detrendovaná korespondenční analýza 69
6.3.3 Korespondenční analýza a detrendovaná korespondenční analýza: shrnutí 72
6.4 Analýza hlavních koordinát 72
6.5 Nemetrické mnohorozměrné škálování 73
6.5.1 Mnohorozměrné škálování: shrnutí 76
7 Kanonická ordinační analýza 77
7.1 Principy kanonické ordinační analýzy 77
7.2 Kanonická korespondenční analýza 77
7.3 Redundanční analýza 82
7.4 Kanonická korelační analýza 83
7.4.1 Kanonická analýza: shrnutí 84
7.5 Diskriminační analýza 85
7.5.1 Kanonická diskriminační analýza 86
7.5.2 Klasifikační diskriminační analýza 87
7.5.3 Diskriminační analýza: shrnutí 88
8 Ordinační metody v ekologii společenstev 89
8.1 Unimodální a lineární model odezvy druhu na gradient prostředí 90
8.2 Přímá a nepřímá gradientová analýza 91
8.3 Hybridní analýza 91
8.4 Parciální ordinační analýza 91
Příloha - Základy maticové algebry 92
Asociační matice 93
Speciální matice 94
Vektory a normalizace 95
Sčítání a násobení matic 96
Determinant matice 98
Hodnost matice 100
Inverzní matice 101
Vlastní hodnoty a vlastní vektory matice 102
Rozklad na singulární hodnoty 105
Seznam doporučené literatury 106
Summary 110