パラメータ数が大きすぎると過剰適合する

訓練データに対する誤差を「訓練誤差」，実際の推定における誤差を「汎化誤差」という．

汎化誤差は期待値であり，厳密な値を取得できないので，標本平均などで代用する．この際に用いるサンプル集合をテストデータといい，サンプルデータに対する誤差をテスト誤差という．このテスト誤差を汎化誤差の目安として利用する．

訓練にするつれて訓練誤差は単調に現象するが，汎化誤差は増加することもある．これを過剰適合（過学習）という．

バリデーションデータを用いて過剰適合を評価する．バリデーションデータはテストデータとは別に，新たにデータを分割して作成する．このバリデーションデータを用いて早期終了などの判断やハイパラの調整などを行う．

かといって，パラーメータが小さすぎてもだめ

古典的には，モデルのパラメータ数について，バイアスとバリアンスのトレードオフがあると言われている．

つまり，パラメータが少なすぎると，モデルに十分な柔軟性がないの誤差を小さくしきれず，全体的なバイアスが生じる．

一方，パラメータが多すぎると，モデルが柔軟すぎてデータに対して過剰にフィットしてしまう．これはバイアスは小さいが学習データのバリアンスも学習してしまい，バリアンスが大きくなってしまう．

パラメータ数をとても多くすると，このバイアスと「バリアンスのトレードオフ」を乗り越えて，再度汎化誤差が低下することがあり，「二重降下 (double descent) 」と呼ばれる．

この原理についてはあまりわかっていないらしい．