Cvičení 9
Shlukování k-means

Vojtěch Franc

Úvod

Cílem tohoto cvičení je implementace algoritmu k-means pro shlukovou analýzu dat. Algoritmus

-means iterativně hledá hodnoty

vektorů $\mu_1, \mu_2, ...,\mu_k$ tak, že minimalizuje střední odchylku mezi zadanou množinou dat

a vektory $\mu_i$ , které mají k těmto datům nejmenší euklidovskou vzdálenost. Neformálně řečeno

-means algoritmus aproximuje množinu dat

vhodně zvolenými vektory.

K-means

Algoritmus

-means je skutečně jednoduchý. Jeho vstupem je množina dat

a číslo

udávající počet vektorů $\mu_j$ ,

. Na začátku se inicializují vektory $\mu_j$ ,

na náhodně zvolenou hodnotu nebo použitím nějaké vhodně zvolené heuristiky (např. využívající apriorní znalost o úloze). Po inicializaci se začnou iterativně opakovat následující dva kroky:

Klasifikace: Všechna data , se klasifikují do tříd určených vektry $\mu_i$ , podle minima euklidovské vzdálenosti. Tedy vzor je přiřazen do třídy podle $y_i=\mathop{\rm argmin}\limits_{j=1,...,k} \vert\vert x_i - \mu_j\vert\vert$ .
Přepočítání vektorů $\mu_j$ : Vypočítají se nové hodnoty vektorů $\mu_j$ jako střední hodnoty dat , které byly klasifikovány do třídy určené příslušným vektorem $\mu_j$ . Tedy nová hodnota $\mu_j$ se spočte podle ztahu $\mu_j = \frac{1}{l_j} \sum\limits_{i=1, \atop y_i=j}^l x_i$ , kde je poče vzorů klasifikovaných v druhém kroku do třídy určené vektorem $\mu_j$ .

Kroky 1 a 2 se opakují do té doby dokud se alespoň jeden vektor

klasifikuje do jiné třídy než byl klasifikován v předcházejícím kroku.

Zadání úlohy

Postupujte podle následujících bodů:

Seznamte se algoritmem -means popsaném v odstavci 2 a implementujte ho.
Vygenerujte si datové množiny obsahující několik dobře oddělitelných shluků. Použijte program creatset ze Statistical Pattern Recognition Toolboxu.
Aplikujte algoritmus -means na vygenerovaná data a výsledek, tj. klasifikování dat do shluků, si zobrazte pomocí funkce ppatterns.

Vojtech Franc
2001-12-05

Cvičení 9 Shlukování k-means

Úvod

K-means

Zadání úlohy

Cvičení 9
Shlukování k-means