Random Samples
Tomáš Svoboda
Abstract:
Pomocný text objasňující základy teorie náhodných vzorků (random
samples). Především odhad střední hodnoty a rozptylu. Vysvětelna je
momentová funkce (moment generating) funkce a odvození jednotlivých
momentů.
Moment
-tého řádu je definován
![\begin{displaymath}
m_n = {\sf E}\{{\bf x}^n\} = \int_{-\infty}^{\infty} x^n f(x) dx.
\end{displaymath}](img2.gif) |
(1) |
Centrální moment
-tého řádu
![\begin{displaymath}
\eta_n = {\sf E}\{({\bf x}-\mu)^n\} = \int_{-\infty}^{\infty} (x-\mu)^n f(x) dx.
\end{displaymath}](img3.gif) |
(2) |
Moment prvního řádu označujeme jako střední hodnotu
.
Druhý centrální moment označujeme jako rozptyl
.
Odmocninu
nazýváme standardní
odhylkou. Rozptyl lze spočítat z prvního a druhého momentu.
![\begin{displaymath}
\sigma^2 = m_2 - \mu^2.
\end{displaymath}](img7.gif) |
(3) |
Důkaz:
Odvození je převzato a upraveno z knihy [1]. Momentová
funkce náhodné veličiny
je definována jako střední hodnota
funkce
.
Funkci označíme
a je definována pro
všechna
pro která
.
![\begin{displaymath}
\Phi(s) = {\sf E}\{e^{s{\bf x}}\} = \int_{-\infty}^{\infty} e^{sx}f(x) dx.
\end{displaymath}](img14.gif) |
(4) |
Tuto funkci s výhodou využijeme při transformaci náhodných veličin.
Buď
náhodná veličina. Její momentová funkce je
rovna:
![\begin{displaymath}
\Phi_y(s) = {\sf E}\{e^{s(a{\bf x}+b)}\} = e^{bs}\Phi_x(as).
\end{displaymath}](img16.gif) |
(5) |
Buď
-tý moment náhodné veličiny.
![\begin{displaymath}m_n={\sf E}\{{\bf x}^n\} = \Phi^{(n)}(0).
\end{displaymath}](img18.gif) |
(6) |
Důkaz:
diferencováním (4) podle
vypočteme
jelikož
,
tato rovnice je přesně rovnice (1).
Buď
rozptyl a
střední hodnota náhodné veličiny
.
Definujeme náhodnou veličinu
jako
Nyní chceme spočitat
a
ze znalosti charakteristik
náhodné veličiny
.
Známe vztah pro momentovou funkci
transformované veličiny (5). Derivujeme podle ![$s$](img12.gif)
![\begin{displaymath}
\Phi'_y = be^{bs} \int_{-\infty}^{\infty} e^{asx} f(x) dx + e^{bs} a \int_{-\infty}^{\infty} xe^{asx} f(x) dx.
\end{displaymath}](img27.gif) |
(7) |
po dosazení
,
![\begin{displaymath}
\mu_y = \Phi'_y(0) = b+a\mu_x.
\end{displaymath}](img28.gif) |
(8) |
Derivací rovnice (7) získáme
připomeňme, že platí
,
viz rovnice (3). Dosazením obdržíme
Rozptyl veličiny
je tedy roven
![\begin{displaymath}
\sigma^2_y = m_2(y) - \mu^2_y = a^2\sigma^2_x.
\end{displaymath}](img32.gif) |
(9) |
Výše uvedené vztahy lze samozřejmě použít i ve vícedimenzionálním
problému. Mějme
-rozměrnou náhodnou veličinu y,
-rozměrnou
x a transformační matici
o rozměru
a
vektor b.
Rovnice (8) se změní na
![\begin{displaymath}
{\sf E}\{{\bf y}\} = A {\bf x} + {\bf b}
\end{displaymath}](img38.gif) |
(10) |
a rovnice (9) bude
![\begin{displaymath}
C_{\bf y} = A C_{\bf x} A^T.
\end{displaymath}](img39.gif) |
(11) |
je
kovarianční matice x a
je
kovarianční matice vektoru y.
Náhodné vzorky definujeme jako sekvenci nevzájem nezávislých náhodných
veličin se stejným rozdělením (v anglické literatuře i.i.d -
independent and identically distributed).
Aritmetickému průměru
![\begin{displaymath}\mean{\vc{x}} = \frac{\vc{x}_1 + \dots + \vc{x}_n}{n}.
\end{displaymath}](img45.gif) |
(12) |
vzorků
se říká střední hodnota náhodných vzorků.
Uvědomme si, že
je také náhodná veličina. Připomeňme,
že vzorky
mají stejnou střední hodnotu a rozptyl. S
použitím rovnic (10) a
(11) vypočteme střední hodnotu
![$\mean{\vc{x}}$](img47.gif)
![\begin{displaymath}\Expect{\mean{\vc{x}}} = \frac{\mu + \dots + \mu}{n} = \mu
\end{displaymath}](img48.gif) |
(13) |
pro rozptyl pak platí
![\begin{displaymath}
\sigma_{\mean{\vc{x}}}^2 = \frac{\sigma^2 + \dots + \sigma^2}{n^2} = \frac{\sigma^2}{n}.
\end{displaymath}](img49.gif) |
(14) |
Buď
náhodné vzorky z rozdělení, jehož tvar známe, ale
neznáme jeho parametry. Předokládejme náhodné rozdělení. Odhady budeme
značit se stříškou,
je tedy odhad střední hodnoty
a
je odhad rozptylu
.
Metodou maximální
věrohodnosti získáme následující odhady parametrů. Pro odhad střední
hodnoty aritmetický průměr
![\begin{displaymath}\hat{\mu} = \frac{1}{N} \sum_{i=1}^{N} \vc{x}_i.
\end{displaymath}](img54.gif) |
(15) |
Střední hodnota odhadu je (viz předchozí podkapitola)
![\begin{displaymath}\Expect{\hat{\mu}}= \frac{1}{N} \sum_{i=1}^{N} \mu = \mu.
\end{displaymath}](img55.gif) |
(16) |
Odhad střední hodnoty je tedy nevychýlený. Pro odhad rozptylu:
![\begin{displaymath}\hat{\sigma}^2 = \frac{1}{N} \sum_{i=1}^{N} (\vc{x}_i - \hat{\mu})(\vc{x}_i - \hat{\mu})
\end{displaymath}](img56.gif) |
(17) |
Ukážeme ale, že tento odhad je vychýleným odhadem skutečného
rozptylu
.
Střední hodnota odhadu rozptylu je tedy
S použitím vztahu pro rozptyl střední hodnoty (14)
![\begin{displaymath}\Expect{\hat{\sigma}^2} = \frac{N-1}{N} \sigma^2.
\end{displaymath}](img60.gif) |
(18) |
Je zřejmé, že pro větší hodnoty
je vychýlení zanedbatelné. Je
třeba si uvědomit, že vychýlení je z důvodu použití odhadu střední
hodnoty
místo skutečné střední hodnoty
.
Pro
nevychýlený odhad rozptylu se používá vztah
![\begin{displaymath}\hat{\sigma}^2 = \frac{1}{N-1} \sum_{i=1}^{N} (\vc{x}_i - \hat{\mu})(\vc{x}_i - \hat{\mu})
\end{displaymath}](img62.gif) |
(19) |
Po odvození zjistíme, že střední hodnota tohoto odhadu je
.
- 1
-
Athanasios Papoulis.
Probability and Statistics.
Prentice-Hall, 1990.
Tomas Svoboda
1999-03-17