箱に入ったりんごとオレンジの話
式1.14からは「パターン認識と機械学習 上」のP.11~P.12で言及した箱に入ったりんごとオレンジの例を使用していますので振り返ってみます。
- 赤と青の2つの箱がある
- 赤の箱にはりんごが2個とオレンジが6個入っている
- 青の箱にはりんごが3個とオレンジが1個入っている
- 箱の1つをランダムに選び、果物をランダムに1個取り出す
- そしてどの果物だったかを記録して元の箱に戻す
- この試行を多数繰り返す
- 箱を選ぶ際は赤の箱を40%、青の箱を60%選ぶ
- 箱のなかの果物は同じ確率で選ぶ
- 「どの箱を選ぶか」の確率変数をBとし、赤い箱の場合をr、青い箱の場合をbとする
- 「どの果物を選ぶか」の確率変数をFとし、りんごの場合をa、オレンジの場合をoとする
このとき、赤か青の箱を選ぶ確率は、
$$ p(B=r)=4/10 \tag{1.14} $$
$$ p(B=b)=6/10 \tag{1.15} $$
となり、\( p(B=r)+p(B=b)=1 \)となります。
箱を選んだあとにフルーツを選ぶ確率は確率の乗法定理の変形
$$ p(Y|X)=\frac{p(X,Y)}{p(X)} \tag{1.11′} $$
より
$$ p(F=a|B=r)=\frac{2/8 \times 4/10}{4/10}=1/4 \tag{1.16} $$
$$ p(F=o|B=r)=\frac{6/8 \times 4/10}{4/10}=3/4 \tag{1.17} $$
$$ p(F=a|B=b)=\frac{3/4 \times 6/10}{6/10}=3/4 \tag{1.18} $$
$$ p(F=o|B=b)=\frac{1/4 \times 6/10}{6/10}=1/4 \tag{1.19} $$
これは簡単に言ってしまうと箱を選んだ後に果物を選ぶ確率そのものです。
箱は選んだ前提という条件付き確率なので当然ですね。
各果物を選ぶ確率を足すと1になります。
$$ p(F=a|B=r) + p(F=o|B=r) = 1 \tag{1.20} $$
$$ p(F=a|B=b) + p(F=o|B=b) = 1 \tag{1.21} $$
さらに加法定理により、りんごを選ぶ確率を計算することができます。
$$
\begin{align}
p(F=a) &= p(F=a|B=r) + p(F=a|B=b) \\
&= \frac{1}{4} \times \frac{4}{10} + \frac{3}{4} \times \frac{6}{10} = \frac{11}{20} \tag{1.22}
\end{align}
$$
事後確率
そして、オレンジを選んだ際、それがどちらの箱から取り出されたかを測る条件付き確率は、ベイズの定理
$$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} \tag{1.12} $$
より求められます。
例えばオレンジが取り出された際にそれが赤い箱から取り出されていた確率は、
$$
\begin{align}
p(B=r|F=o) &= \frac{p(F=o|B=r)p(B=r)}{p(F=o)} \\
&= \frac{3}{4} \times \frac{4}{10} \times \frac{20}{9} = \frac{2}{3} \tag{1.23}
\end{align}
$$
最初に赤い箱を選ぶ確率は4/10(40%)だったのに、オレンジが取り出された途端2/3(66%)に跳ね上がるっていうのが面白いですね。
単純に赤い箱にオレンジがいっぱい入っているので、オレンジが取り出されたなら赤い箱から取り出された可能性のほうが高いという理由なのですが、
このようにベイズの定理で条件付き確率から逆算された確率を事後確率といいます。
逆に条件付き確率が判明していない状態で計算する「最初に赤い箱を選ぶ確率」のほうを事前確率といいます。
コメント