パラメータ数が大きすぎると過剰適合する
訓練誤差と汎化誤差
訓練データに対する誤差を「訓練誤差」,実際の推定における誤差を「汎化誤差」という.
汎化誤差は期待値であり,厳密な値を取得できないので,標本平均などで代用する.この際に用いるサンプル集合をテストデータといい,サンプルデータに対する誤差をテスト誤差という.このテスト誤差を汎化誤差の目安として利用する.
過剰適合(過学習)
訓練にするつれて訓練誤差は単調に現象するが,汎化誤差は増加することもある.これを過剰適合(過学習)という.
過剰適合への対策
バリデーションデータを用いて過剰適合を評価する.バリデーションデータはテストデータとは別に,新たにデータを分割して作成する.このバリデーションデータを用いて早期終了などの判断やハイパラの調整などを行う.
かといって,パラーメータが小さすぎてもだめ
バイアスとバリアンスのトレードオフ
古典的には,モデルのパラメータ数について,バイアスとバリアンスのトレードオフがあると言われている.
つまり,パラメータが少なすぎると,モデルに十分な柔軟性がないの誤差を小さくしきれず,全体的なバイアスが生じる.
一方,パラメータが多すぎると,モデルが柔軟すぎてデータに対して過剰にフィットしてしまう.これはバイアスは小さいが学習データのバリアンスも学習してしまい,バリアンスが大きくなってしまう.
と思いきや,多ければ多いほどいいっぽい(?)
パラメータ数をとても多くすると,このバイアスと「バリアンスのトレードオフ」を乗り越えて,再度汎化誤差が低下することがあり,「二重降下 (double descent) 」と呼ばれる.
この原理についてはあまりわかっていないらしい.
参考文献
- 岡谷貴之. (2015). 深層学習= Deep learning (MLP 機械学習プロフェッショナルシリーズ). 講談社.