ベイズ確率
$$ p(\boldsymbol{w} | \mathcal{D})=\frac{p(\mathcal{D} | \boldsymbol{w})p(\boldsymbol{w})}{p(\mathcal{D}) } \tag{1.43} $$
(「パターン認識と機械学習 上」 P.22)
この式はパラメータ\( \boldsymbol{w} \)の事後確率ですね。
教師データ\( \mathcal{D} = {t_1,…,t_N} \)を観測した事後に
\( \boldsymbol{w} \)に関する不確実性を評価しようとするために\( p(\boldsymbol{w} | \mathcal{D}) \)の形の事後確率を利用します。
式(1.43)の項のうち、右辺の\( p(\mathcal{D} | \boldsymbol{w} \)を尤度関数と呼びます。
こちらは\( \boldsymbol{w} \)を観測した後の\( \mathcal{D} \)の発生確率であるため、
パラメータ\( \boldsymbol{w} \)を固定した際の\( \mathcal{D} \)の現れ方を表すことになります。
これを言葉で書くと、
$$ 事後確率 \propto 尤度 \times 事前確率 \tag{1.44} $$
となります。
\( \propto \)は「比例する」を意味するので、
「事後確率は尤度と事前確率の積に比例する」という意味になります。
式(1.43)でいうと事後確率は左辺の\( p(\boldsymbol{w} | \mathcal{D}) \)、
尤度は右辺の\( p(\mathcal{D} | \boldsymbol{w} \)、
事前確率も右辺の\( p(\boldsymbol{w} \)ですね。
確かに比例します。イコールではないのは何故かというと、
(1.44)には右辺の分母が入っていないからですね。
これを確認するために(1.43)の両辺を\( w \)で積分すると以下のようになります。
$$ p(\mathcal{D})=\int p(\mathcal{D} | \boldsymbol{w})p(\boldsymbol{w})d\boldsymbol{w} \tag{1.45} $$
コメント