PRML1.46(ガウス分布) – PRMLで出てくる数式を掘り下げる

機械学習

本シリーズの一覧はこちら
前回はこちら

ガウス分布

$$\mathcal{N}(x | \mu, \sigma ^2)=\frac{1}{(2\pi\sigma ^2)^{1/2}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} \tag{1.46} $$

この式はガウス分布とか正規分布とか呼ばれているものです。
ちょっと端折りつつ導いてみましょう。

まずは標準正規分布から

正規分布を導くにはまず標準正規分布を導く必要があります。

$$ \int_{-\infty}^\infty e^{-x^2}dx = \sqrt{\pi} \tag{a} $$

なので、(この証明は
「スバラシク実力がつくと評判の大学基礎数学キャンパス・ゼミ」のP.77に載っています)

両辺を\( \sqrt{\pi} \)で割って、

$$ \frac{1}{\sqrt{\pi}}\int_{-\infty}^\infty e^{-x^2}dx = 1 $$

無限積分の結果が1(全確率)になったので、積分前の\( \frac{1}{\sqrt{\pi}}e^{-x^2} \)を1つの確率密度と考えることができます。

\( x = \frac{z}{\sqrt{2}} \)と置くと、\( \frac{dx}{dz} = \frac{1}{\sqrt{2}} \)、
また、\( x:-\infty \rightarrow \infty \)のとき、\( z:-\infty \rightarrow \infty \)となることから、式(a)の積分変数xをzに変換して、

$$ \int_{-\infty}^\infty e^{-x^2}dx = \int_{-\infty}^\infty{e^{-(\frac{z}{\sqrt{2}})^2}}\frac{dx}{dz}dz $$

\( \frac{dx}{dz} = \frac{1}{\sqrt{2}} \)のため

$$ = \frac{1}{\sqrt{2}}\int_{-\infty}^\infty e^{-\frac{z^2}{2}}dz = \sqrt{\pi} $$

$$ ∴ \int_{-\infty}^\infty e^{-\frac{z^2}{2}}dz = \sqrt{2\pi} \tag{b} $$

二項分布から正規分布を導く

二項分布

$$ P_B(x) = {}_n \mathrm{ C }_k p^x q^{n-x}(>0) (x=0,1,…,n) $$

について、\( n>>0,x>>0 \)
この式の自然対数を取ったものをg(x)とすると、

$$ g(x) = logP_B(x) = log\{ \frac{n!}{x!(n-x)!}p^{x} \cdot (1-p)^{n-x} \} \tag{p+q=1} $$

対数法則

$$ log(X\cdot Y) = logX + logY\\
log \frac{X}{Y} = logX – logY\\
logY^x = xlogY $$
より、

$$ g(x) = logn! – logx! – log(n-x)! + xlogp + (n-x)log(1-p) \tag{a} $$

ここで、\( logx! \)の\( [x,x+\Delta x] (\Delta x = 1) \)における平均変化率を\( h'(x) \)で表すと、

$$
\begin{align}
h'(x) &\simeq \frac{h(x)-h(x- \Delta x)}{\Delta x} = \frac{h(x)-h(x- 1)}{1} (\Delta x = 1) \\
&= logx! – log(x-1)! = log \frac{x!}{(x-1)!} = logx
\end{align}
$$
$$ ∴(logx!) \simeq logx (x>>0のとき) \tag{b}$$

よって、合成関数の微分法により
$$ {log(n-x)!} \simeq {log(n-x)}\cdot (n-x)’ = -log(n-x) \tag{c} $$
となります。

式b,cより、式aの\( g(x) \)の\( x \)における微分係数は、

$$ g'(x) = -(logx!)’-{log(n-x)!}’+logp-log(1-p) $$
$$ g'(x) = -logx+log(n-x)+logp-log(1-p) \tag{d} $$
$$ g'(x) = log\frac{p(n-x)}{(1-p)x} $$

ここでxを連続型の変数と考えると、

\( g'(x)=0 \)のとき、

$$ log\frac{p(n-x)}{(1-p)x} = 0 $$
$$ \frac{p(n-x)}{(1-p)x} = 1 $$
$$ np – px = (1-p)x $$
$$ x = np [= \mu ] \tag{dd}$$

よって、\( x = np = \mu \)のとき、

$$ g'(\mu )=0 \tag{e} $$

\( x=np \)で\( P_B(X) \)は極大値を取ります。
式dをさらにxで微分して、

$$ g”(x) = -\frac{1}{x} + \frac{-1}{n-x} = -\frac{n}{x(n-x)} $$

式ddより、

$$
\begin{align}
g”(\mu ) &= -\frac{n}{\mu (n-\mu )} \\
&= -\frac{n}{np(n-np)} \\
&= -\frac{1}{np(1-p)} \\
&= -\frac{1}{npq} \\
&= -\frac{1}{\sigma^2} \\
\end{align} \tag{f}
$$

式e,fより、\( g(x) \)を\( x=\mu \)の周りにテイラー展開すると、

$$ g(x) = g(\mu ) + \frac{g'(\mu )}{1!}\cdot (x-\mu ) + \frac{g”(\mu )}{2!}\cdot (x-\mu)^2 + \frac{g^{(3)}(\mu)}{3!}\cdot(x-\mu )^3 + … $$
$$ g(x) \simeq g(\mu ) – \frac{1}{2\sigma^2}(x-\mu)-2 \tag{g} $$

\( g(x) = logP_B(x) \)より、式gは、

$$
\begin{align}
logP_B(x) \simeq logP_B(\mu)+loge^{-\frac{(x-\mu)^2}{2\sigma^2}} \\
= logc\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}
\end{align} $$

よって、 n>>0すなわちx>>0のとき、二項分布の確率関数\( P_B(x) \)は、
正規分布の確率密度\( f_N(x)= c\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}} \)に近づきます。

むずすぎ

まだ自分でも咀嚼しきれてないので復習したらまた追記しますね。

コメント

タイトルとURLをコピーしました