おさかなメモ

間違っていることを書いているかもしれません.もし間違いを見つけましたらコメントで教えてください!

汎化性能と過剰適合(バイアスとバリアンスのトレードオフ)

パラメータ数が大きすぎると過剰適合する

訓練誤差と汎化誤差

訓練データに対する誤差を「訓練誤差」,実際の推定における誤差を「汎化誤差」という.

汎化誤差は期待値であり,厳密な値を取得できないので,標本平均などで代用する.この際に用いるサンプル集合をテストデータといい,サンプルデータに対する誤差をテスト誤差という.このテスト誤差を汎化誤差の目安として利用する.

過剰適合(過学習

訓練にするつれて訓練誤差は単調に現象するが,汎化誤差は増加することもある.これを過剰適合(過学習)という.

過剰適合への対策

バリデーションデータを用いて過剰適合を評価する.バリデーションデータはテストデータとは別に,新たにデータを分割して作成する.このバリデーションデータを用いて早期終了などの判断やハイパラの調整などを行う.

かといって,パラーメータが小さすぎてもだめ

バイアスとバリアンスのトレードオフ

古典的には,モデルのパラメータ数について,バイアスとバリアンスのトレードオフがあると言われている.

つまり,パラメータが少なすぎると,モデルに十分な柔軟性がないの誤差を小さくしきれず,全体的なバイアスが生じる.

一方,パラメータが多すぎると,モデルが柔軟すぎてデータに対して過剰にフィットしてしまう.これはバイアスは小さいが学習データのバリアンスも学習してしまい,バリアンスが大きくなってしまう.

と思いきや,多ければ多いほどいいっぽい(?)

パラメータ数をとても多くすると,このバイアスと「バリアンスのトレードオフ」を乗り越えて,再度汎化誤差が低下することがあり,「二重降下 (double descent) 」と呼ばれる.

この原理についてはあまりわかっていないらしい.

参考文献

  1. 岡谷貴之. (2015). 深層学習= Deep learning (MLP 機械学習プロフェッショナルシリーズ). 講談社.