今回の式を見ていきましょう。
$$ E(\bf w \rm)=\frac{1}{2}\sum_{n=1}^{N}\{y(X_n,\bf w \rm)-t_n\}^2 + \frac{\lambda}{2}||w||^2 \tag{1.4} $$
「パターン認識と機械学習 上」P.9「1.1 例:多項式曲線フィッティング」より
今回は前回定義した最小二乗誤差\( E(\bf w \rm) \)の改良版です。
多項式による近似ではパラメータの数が多いほどオーバーフィッティングされてしまう可能性が高まってしまいます。
オーバーフィッティングされたパラメータは数値が大きくなる
ただし、オーバーフィッティングされてしまったパラメータにはある特徴があるので、それを検知することができるのです。
多くのパラメータを用いて無理に訓練データに値を近づけようとすると、パラメータの数値が10万とか100万といった大きい値になってしまいます。
これを逆手に取り、誤差関数にパラメータの2乗和を加えています。
これにより、そのような異常なデータに対してペナルティを与えることができるのです。
このようにして係数wの値を小さくしようとする手法を縮小推定といいます。
追加された項の詳細
ペナルティとして追加された後は\( \frac{\lambda}{2}||w||^2 \)です。
これを正則化項といいます。
ここで、
$$ ||w||^2 = w^Tw = w^2_0 + w^2_1 + … + w^2_M $$
で、係数λは正則化項と二乗誤差の和のどちらを重要視するかを調整するための変数です。
λが大きければ大きいほど正則化項の重要性が高くなります。
コメント