PRML1.46(ガウス分布) – PRMLで出てくる数式を掘り下げる

本シリーズの一覧はこちら
前回はこちら

ガウス分布
まずは標準正規分布から
二項分布から正規分布を導く
むずすぎ

ガウス分布

$$\mathcal{N}(x | \mu, \sigma ^2)=\frac{1}{(2\pi\sigma ^2)^{1/2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} \tag{1.46} $$

この式はガウス分布とか正規分布とか呼ばれているものです。
ちょっと端折りつつ導いてみましょう。

まずは標準正規分布から

正規分布を導くにはまず標準正規分布を導く必要があります。

$$ \int_{-\infty}^\infty e^{-x^2}dx = \sqrt{\pi} \tag{a} $$

なので、(この証明は
「スバラシク実力がつくと評判の大学基礎数学キャンパス・ゼミ」のP.77に載っています）

両辺を$ \sqrt{\pi} $で割って、

$$ \frac{1}{\sqrt{\pi}}\int_{-\infty}^\infty e^{-x^2}dx = 1 $$

無限積分の結果が1(全確率)になったので、積分前の$ \frac{1}{\sqrt{\pi}}e^{-x^2} $を1つの確率密度と考えることができます。

$ x = \frac{z}{\sqrt{2}} $と置くと、$ \frac{dx}{dz} = \frac{1}{\sqrt{2}} $、
また、$ x:-\infty \rightarrow \infty $のとき、$ z:-\infty \rightarrow \infty $となることから、式(a)の積分変数xをzに変換して、

$$ \int_{-\infty}^\infty e^{-x^2}dx = \int_{-\infty}^\infty{e^{-(\frac{z}{\sqrt{2}})^2}}\frac{dx}{dz}dz $$

$ \frac{dx}{dz} = \frac{1}{\sqrt{2}} $のため

$$ = \frac{1}{\sqrt{2}}\int_{-\infty}^\infty e^{-\frac{z^2}{2}}dz = \sqrt{\pi} $$

$$ ∴ \int_{-\infty}^\infty e^{-\frac{z^2}{2}}dz = \sqrt{2\pi} \tag{b} $$

二項分布から正規分布を導く

二項分布

$$ P_B(x) = {}_n \mathrm{ C }_k p^x q^{n-x}(>0) (x=0,1,…,n) $$

について、$ n>>0,x>>0 $
この式の自然対数を取ったものをg(x)とすると、

$$ g(x) = logP_B(x) = log\{ \frac{n!}{x!(n-x)!}p^{x} \cdot (1-p)^{n-x} \} \tag{p+q=1} $$

対数法則

$$ log(X\cdot Y) = logX + logY\\
log \frac{X}{Y} = logX – logY\\
logY^x = xlogY $$
より、

$$ g(x) = logn! – logx! – log(n-x)! + xlogp + (n-x)log(1-p) \tag{a} $$

ここで、$ logx! $の$ [x,x+\Delta x] (\Delta x = 1) $における平均変化率を$ h'(x) $で表すと、

$$
\begin{align}
h'(x) &\simeq \frac{h(x)-h(x- \Delta x)}{\Delta x} = \frac{h(x)-h(x- 1)}{1} (\Delta x = 1) \\
&= logx! – log(x-1)! = log \frac{x!}{(x-1)!} = logx
\end{align}
$$
$$ ∴(logx!) \simeq logx (x>>0のとき) \tag{b}$$

よって、合成関数の微分法により
$$ {log(n-x)!} \simeq {log(n-x)}\cdot (n-x)’ = -log(n-x) \tag{c} $$
となります。

式b,cより、式aの$ g(x) $の$ x $における微分係数は、

$$ g'(x) = -(logx!)’-{log(n-x)!}’+logp-log(1-p) $$
$$ g'(x) = -logx+log(n-x)+logp-log(1-p) \tag{d} $$
$$ g'(x) = log\frac{p(n-x)}{(1-p)x} $$

ここでxを連続型の変数と考えると、

$ g'(x)=0 $のとき、

$$ log\frac{p(n-x)}{(1-p)x} = 0 $$
$$ \frac{p(n-x)}{(1-p)x} = 1 $$
$$ np – px = (1-p)x $$
$$ x = np [= \mu ] \tag{dd}$$

よって、$ x = np = \mu $のとき、

$$ g'(\mu )=0 \tag{e} $$

$ x=np $で$ P_B(X) $は極大値を取ります。
式dをさらにxで微分して、

$$ g”(x) = -\frac{1}{x} + \frac{-1}{n-x} = -\frac{n}{x(n-x)} $$

式ddより、

$$
\begin{align}
g”(\mu ) &= -\frac{n}{\mu (n-\mu )} \\
&= -\frac{n}{np(n-np)} \\
&= -\frac{1}{np(1-p)} \\
&= -\frac{1}{npq} \\
&= -\frac{1}{\sigma^2} \\
\end{align} \tag{f}
$$

式e,fより、$ g(x) $を$ x=\mu $の周りにテイラー展開すると、

$$ g(x) = g(\mu ) + \frac{g'(\mu )}{1!}\cdot (x-\mu ) + \frac{g”(\mu )}{2!}\cdot (x-\mu)^2 + \frac{g^{(3)}(\mu)}{3!}\cdot(x-\mu )^3 + … $$
$$ g(x) \simeq g(\mu ) – \frac{1}{2\sigma^2}(x-\mu)-2 \tag{g} $$

$ g(x) = logP_B(x) $より、式gは、

$$
\begin{align}
logP_B(x) \simeq logP_B(\mu)+loge^{-\frac{(x-\mu)^2}{2\sigma^2}} \\
= logc\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}
\end{align} $$

よって、 n>>0すなわちx>>0のとき、二項分布の確率関数$ P_B(x) $は、
正規分布の確率密度$ f_N(x)= c\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}} $に近づきます。

むずすぎ

まだ自分でも咀嚼しきれてないので復習したらまた追記しますね。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31