Pomocí krosvalidace, maximalizací věrohodnosti, odhadněte
optimální velikost parametru
sigma.
Použijte zjednodušenou verzi krosvalidace s
dělením jen na dvě množiny (trénovací a validační).
Postup:
- Nastudujte si techniku
krosvalidace.
- Sadu X1 rozdělte na dvě stejně velké části
X1a a
X1b (doporučujeme
použít funkci crossval()).
- Na části X1a odhadněte distribuci
p(x|1) pro různá
sigma a na druhé části (validační) vyčíslete logaritmus věrohodnosti
L(sigma), tj:
p(x|1) =
my_parzen(x,X1a,sigma)
L(sigma) = Sumx log( p(x|1) ),
kde sčítáme přes všechna x z
X1b.
- Krok 2 opakujte pro různá
sigma,
např.
sigma = 100, 200,...,1000.
- Vykreslete do obrázku závislost věrohodnosti L(sigma)
na
sigma
a vyberte optimální hodnotu
sigma
maximalizující věrohodnost
Otázka: Jaké sigma by se našlo, pokud bychom množinu nerozdělili, ale
hledali maximum věrohodnosti na celé množině?
Poznámka: Použitý postup, při kterém jsme rozdělili trénovací množinu na dvě části, je zjednodušenou formou krosvalidace. Odvážnější studenti mohou použít její úplný tvar s dělením do více
množin.
Očekávané výsledky: