Cvičení 29.3. a 30.3.
Porovnání klasifikátorů
Klasifikujte příznakové vektory
do tříd 'muž' či 'žena'. Vyberte si 2 ze 3 klasifikátorů (váš,
N-D Gausián, k-NN) a porovnejte je.
Cíle
Zjistit závislost výsledku klasifikace na:
-
druhu klasifikátoru,
-
velikosti trénovací množiny,
-
vybraných příznacích.
Osnova
- Data
-
Stahněte si trenovací a testovací
množiny. Číslo v názvu souboru odpovídá mohutnosti treninkové
množiny.
Množina všech dat byla rozdělena náhodně tak, aby četnost tříd v
trenovací množině odpovídala četnosti v datech.
Náhodný výběr byl inplementován ve funkci crtrset.m. Pro spuštění potřebujete ještě getoff.m
- Implementace
-
Příklad implementace: ndgauss.m,
knn.m.
- Klasifikace
-
Pro min. 20 kombinací níže vedených parametrů naučte
klasifikator a vyhodnoťte chybu na trenovacích datech.
- Druh klasifikatoru:
- k-NN (různá k), N-D Gauss, váš (ad hoc)
- Volba podmnožiny příznaků:
- Dimenze př. prostoru 1D až 6D. Výběr příznaků pro nižší dimenze.
- Velikosti trénovací množiny:
- K dispozici jsou trénovací množiny s 15, 30 a 60 vzory. K nim patří i testovací množiny.
- Výstup úlohy
-
Výsledky zapište do tabulky. Ve zprávě reagujte na následující body:
-
Komentujte výběr příznaků pro klasifikaci v nižších dimenzí.
-
Najděte nejlepší kombinaci: klasifikátor, dimenze příznakového
prostoru a četnost trénovací množiny. Pokuste se zdůvodnit.
-
Najděte výše uvedenou kombinaci s nejhorší úspěšností
klasifikace. Komentujte.
Hodnocení úlohy
Výstupem úlohy je zpráva a tabulka dle bodu 4. Pošlete tabulku a
zprávu na svoboda@cmp.felk.cvut.cz. Akceptované
formáty: Excel, ASCII, PostSript, PDF. Zpráva vyhovující výše uvedeným
požadavkům a doručená do 7.4. 1200 bude ohodnocena
+. Nadprůměrné zprávy mohou obdržet až
3+. Ohodnocení bude rozděleno rovnoměrně
mezi tvůrce. Stejné zprávy od různých autorů nejsou
akceptovatelné. Stejně tak nebudou oceněny zprávy obdržené po termínu.