EM algoritmus pro Nicka Cartera

Proslulý detektiv Nick Carter se během řešení záhadného zločinu, zmizení psa hraběnky Thunové, ocitl v úzkých. Dá se říci, že bezradně tápe. Jediná stopa, kterou se mu podařilo získat, je pouze několik velmi nekvalitních, téměř zcela nečitelných, snímků pravděpodobného zloducha.

Ano, nyní Nick Carter hluboce lituje, že během studií tolik zanedbával přednášky a semináře předmětu 33RPZ. Ale už je pozdě. Sám není schopen jediné dostupné indicie zužitkovat. Naštěstí se od komisaře Ledviny doslechl o Vás, talentovaných studentech a obrací se s prosbou o pomoc.

Pomůžete Nickovi odhalit tvář zákeřného bídáka a zabránit tak jeho dalším zločinům?

obr.1. Nick Carter studující EM algoritmus.

Popis dostupných indicií

Jak jsme již zmínili, jediná stopa Nick Cartera je m nečitelných snímků o rozměru H_img x W_img pixelů (obr. 2). Nick Carter dále ví, že na každém snímku je zachycena tvář padoucha. Nick Carter tuší, že tvář padoucha má rozměr pouze H_img x w pixelů (výška je tedy stejná, jen je tvář o něco užší). Na každém snímku je hledaná tvář pravděpodobně v jiném místě (předpokládáme, že se mění pouze její horizontální pozice k). Barva b ostatních pixelů (tj. pixelů tvořící pozadí) je konstantní. Snímky jsou navíc silně zašuměny (gaussovským šumem).

obr.2. Ukázka jednoho vstupního obrázku.

obr.3. Model obrázku. Tvář padoucha na pozici k.

Stochastický model

Vstupní data tvoří množína m obrázků {X₁, X₂, ... , X_m} o rozměrech H_img × W_img, kde X_i značí jeden (i-tý) obrázek. Každý obrázek má tedy n = H_img * W_imgpixelů. V každém obrázku X_i je na k_i-té pozici obrázek padouchovy tváře F o rozměru H_img x w, (viz. obr.3). Přesněji, na každém obrázku X_i začíná obrázek obličeje na sloupci k_i. Ostatní pixely mají konstantní hodnotu b.

Poloha tváře na obrázcích není předem známá, tj. hodnoty k_i jsou neznámé, jedná se o skryté parametry.

Hodnota každého pixelu x_i(r,c) v i-tém obrázku na pozici (r,c) je zatížena gaussovským šumem N(0,σ). Pravděpodobnost naměření hodnoty x_i(r,c), za předpokladu, že tvář je na k_i-té pozici, můžeme tedy zapsat jako:

pro pixely pozadí (tj. pro c vyhovující 1 <= c < k_i nebo k_i+w <= c <=W_img ):

P(x_i(r,c) | k_i) = N(b, σ)
pro pixely tváře (tj. pro c vyhovující k_i <= c < k_i+w ):

P(x_i(r,c) | k_i) = N(F(r,c-k_i+1), σ) .

Pravděpodobnost naměření obrázku X_i, za předpokladu, že tvář padoucha je na k_i-té pozici, lze zapsat jako součin přes všechny pixely

P( X_i | k_i ) = Π_r Π_c P( x_i(r,c) | k_i) .

Pravděpodobnost naměření všech m obrázků P( {X₁,...,X_m} ) můžeme vyjádřit jako

P( {X₁,...,X_m} ) = Π_i P( X_i) = Π_i Σ_k P( X_i , k) = Π_i Σ_k P(k) P( X_i | k) .

Zlogaritmováním získáme věrohodnost L = log P( {X₁,...,X_m} ) .

Nick Carter správně usoudil, že pro nejvěrohodnější odhad padouchovy tváře F se nabízí použít EM algoritmus, kde skrytými parametry jsou pozice tváře k_i , i=1,..,m v obrázcích.

Formulace EM

EM algoritmus použijeme jako ML-odhad parametrů F, b, σ

(F, b, σ) = argmax P({X₁,...,X_m}|F, b, σ).

Skrytými parametry jsou pozice tváře k_i v obrázcích.

V EM algoritmu opakovaně střídáme dva kroky, E-krok a M-krok:

E-step:
V E-kroku, pro odhadnutá F, b, σ vyčíslujeme koeficienty α(k,i) :

α(k,i) = P(k) * P(X_i | k) / Σ_k [ P(k) * P(X_i | k) ] ,

kde k = 1,...,W_img-w+1, i = 1,...,m. Koeficienty α(k,i) představují odhady pravděpodobnosti P(k_i|X_i) . Jinými slovy odhadujeme, jaká je pravděpodobnost, že na i-tém obrázku je tvář na pozici k_i a to pro všechny obrázky a všechny možné pozice.
M-step:
V M-kroku pro daná α(k,i) odhadujeme (maximalizací dolní meze věrohodnosti) parametry P(k), F, b, σ. Pravděpodobnost P(k) se počítá jako aritmetický průměr α(k,i) přes index i

P(k) = Σ_i α(k,i) / m ,
kde k = 1, ..., W_img - w + 1 a sčítání je přes i = 1, ..., m. Parametry F, b, σ hledáme maximalizací

(F, b, σ) = argmax Σ_i Σ_k α(k,i) * log P(X_i | k, F, b, σ) , (1)
k = 1, ..., W_img- w + 1 a sčítání je přes i = 1, ..., m. Vztahy pro F, b, σ získáme položením derivace předešlé rovnice dle F, b, σ rovné nule. Tímto způsobem lze odvodit, že

F = [ Σ_i Σ_k α(k,i) * X_i (:, k:k+w-1) ] / m
b = [ Σ_i Σ_k α(k,i) * S(k,i) ] / [ m * (n-H_img*w) ] ,
σ² = [ Σ_i Σ_k α(k,i) * ( A(k,i) + B(k,i) ) ] / (m*n) , kde S( k,i) = Σ_r Σ_c X_i( r,c) , r=1,..., H_img , c=[1:k-1, k+w:W_img]
A(k,i) = Σ_r Σ_c [ X_i ( r,k+c-1) - F(r,c) ]² , r=1,...,H_img , c=1,...,w
B( k,i) = Σ_r Σ_c [ X_i( r,c) - b ]² , r=1,..., H_img , c=[1:k-1, k+w:W_img]

( Vztah b si zkuste odvodit. Položte derivaci rovnice (1) dle b rovnu 0 a vyjádřete b.)

Úkoly

Nastudujte EM algoritmus.
Zkuste si odvodit vztah v M-kroku pro odhad parametru b (barva pozadí).
Použijte EM-algoritmus pro nejvěrohodnější odhad padouchovy tváře F. V každém kroku vykreslujte odhad padouchovy tváře F a věrohodnost odhadu. Vstupní obrázky jsou ke stažení zde: image_data.mat. Soubor obsahuje 500 obrázků o rozměru 45x60pixelů. Předpokládaná šířka padouchovy tváře w je 36 pixelů. Odhad zkuste postupně pro m = 10,100,500.
Do prvních deseti vstupních obrázků vykreslete nalezenou polohu tváře v obrázku, tj. označte počáteční sloupec tváře k_i = argmax _{k_i} P( k_i | X_i).

obr.4. Očekávaný výsledek 4. bodu: odhadnutá/nejpravděpodobnější pozice tváře v prvním obrázku.

Nápověda

V E-kroku, během výpočtu α(k,i) doporučujeme sečíst nejdříve exponenty všech gaussiánů, které se vyskytují v součinech. Dále před vydělením samotného zlomku je vhodné vynásobit čitatel i jmenovatel dostatečně velkým číslem (tj. přičíst k exponentům dostatečně velké číslo), abyste předešli zaokrouhlovacím chybám funkce exp.

Chytřejší a doporučené řešení zmíněného problému napovídá Lukáš Cerman: "Uvedený problém lze vyřešit numericky stabilnějším výpočtem -- stačí invertovat podíl, posčítat části a invertovat zpátky (viz. obr, nebo pdf). Exponenciály v dílčích součtech se tak výrazně zmenší, protože stačí odečíst jejich exponenty."

Ti, kteří nedůvěřují vlastní implementaci výpočtu koeficientů α(k,i) , mohou pro urychlení použít funkci getalpha.m od studentů Rusz,Horniak.

Soutěž o bonus:

Výsledky rekonstrukce tváře včetně zdrojových kódů můžete posílat již během týdne emailem cvičícím. Prvních 5 správných řešení získávají bonus významné váhy (tzv. EM bonus).

Poznámka I: Případné nejasnosti v zadání konzultujte (např. emailem) s cvičícími.

Doporučená literatura

[1] Expectation-maximization algorithm (Wikipedia).
[2] Podklady pro cvičení (2005)
[3] Schlesinger, Hlaváč. Deset přednášek z teorie statistického s strukturního rozpoznávání.

Created by Martin Urban, last update 14.12.2007