PRML1.38~1.42(分散) – PRMLで出てくる数式を掘り下げる

機械学習

本シリーズの一覧はこちら
前回はこちら

分散

分散(variance)は\( var[f] \)と表記します。

$$ var[f] = \mathbb{E}\bigl[(f(x)-\mathbb{E}[f(x)])^2\bigr] \tag{1.38} $$
「パターン認識と機械学習 上」 P.19

スバラシク実力がつくと評判の統計学キャンパス・ゼミなどではこの式をもうちょい詳しく説明しています。
離散型で説明しますが、\( f(x)=X,\mu=\mathbb{E}[X] \)と読み替えてください。

期待値
$$ \mu = \mathbb{E}[X] = \sum_{i=1}^n(x_i-P_i) $$
分散
$$ var[X] = \sum_{i=1}^n(x_i-\mu)^2P_i $$
μのまわりの2次のモーメント
$$ \mathbb{E}[(X-\mu)^2] = \sum_{i=1}^n(x_i-\mu)^2P_i $$
上記より、
$$
\begin{align}
var[X] &= \mathbb{E}[(X-\mu)^2] \\
&= \mathbb{E}\bigl[(X-\mathbb{E}[X])^2\bigr]
\end{align}
$$
と、これで式(1.38)が導けました。

ここからさらに

$$
\begin{align}
var[X] &= \mathbb{E}[(X-\mu)^2] \\
&= \mathbb{E}[(X^2-2\mu X+\mu^2)]
\end{align}
$$
期待値の線形性\( \mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y] \)より、
$$ = \mathbb{E}[X^2]+\mathbb{E}[-2\mu X]+\mathbb{E}[\mu^2]$$
期待値の線形性\( \mathbb{E}[cX]=c\mathbb{E}[X] \)より、
$$
\begin{align}
&= \mathbb{E}[X^2]-2\mu\mathbb{E}[X]+\mu^2\mathbb{E}[1] \\
&= \mathbb{E}[X^2]-2\mu^2+\mu^2 \\
&= \mathbb{E}[X^2]-\mathbb{E}[X]^2 \\
\end{align}
$$

これで、

$$ var[f] = \mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2 \tag{1.39} $$

が導け、さらに\( x \)自身の分散を考えると

$$ var[x] = \mathbb{E}[x^2]-\mathbb{E}[x]^2 \tag{1.40} $$

となります。

共分散

共分散(covariance)は\( cov[f] \)と表記します。

$$
\begin{align}
cov[x,y] &= \mathbb{E}^{x,y} [\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\
&= \mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y] \tag{1.41} \\
\end{align}
$$

1行目の\( \mathbb{E}^{x,y} \)は上付きになっちゃってますが本当は下付きです。(したにすると何故かMathjaxが反応しなくなる)

まず、\( \mathbb{E}^{x,y} \)は\( x,y \)の同時確率の期待値です。
\( [\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \)の部分は、通常の分散では\( [(f(x)-\mathbb{E}[f(x)])^2] \)と2乗になっていた部分を、
\( x \)と\( y \)の2つに分けて定義しています。

これを確率変数ベクトルにすると、\( y \)の方が転置されて

$$
\begin{align}
cov[\boldsymbol{x,y}] &= \mathbb{E}^{x,y} [\{\boldsymbol{x}-\mathbb{E}[\boldsymbol{x}]\}\{\boldsymbol{y}^T-\mathbb{E}[\boldsymbol{y}^T]\}] \\
&= \mathbb{E}_{x,y}[\boldsymbol{xy}^T]-\mathbb{E}[\boldsymbol{x}]\mathbb{E}[\boldsymbol{y}^T] \tag{1.42} \\
\end{align}
$$

という形になります。

コメント

タイトルとURLをコピーしました