Una serie di dati all'incirca lineare (ma affetta da rumore), approssimabile sia da una funzione lineare sia da una interpolazione polinomiale. Nonostante quella polinomiale si adatti in modo perfetto ai dati, ci si aspetta che la versione lineare debba rappresentare una migliore generalizzazione: quindi, in un'estrapolazione al di fuori dei dati conosciuti la funzione lineare fornirebbe migliori predizioni.
La curva blu mostra l'andamento dell'errore nel classificare i dati di training, mentre la curva rossa mostra l'errore nel classificare i dati di test o validazione. Una situazione in cui il secondo aumenta mentre il primo diminuisce è indice della possibile presenza di un caso di overfitting.

In statistica e in informatica, si parla di overfitting (in italiano: adattamento eccessivo, sovradattamento) quando un modello statistico molto complesso si adatta ai dati osservati (il campione) perché ha un numero eccessivo di parametri rispetto al numero di osservazioni.

Un modello assurdo e sbagliato può adattarsi perfettamente se è abbastanza complesso rispetto alla quantità di dati disponibili.

Si sostiene che l'overfitting sia una violazione del principio del Rasoio di Occam.

Contromisure

Sia nella statistica sia nel apprendimento automatico, per prevenire ed evitare l'overfitting è necessario mettere in atto particolari accorgimenti tecnici, come la convalidazione incrociata e l' arresto anticipato, che indicano quando un ulteriore allenamento non porterebbe a una migliore generalizzazione.

Nel treatment learning si evita l'overfitting utilizzando il valore di supporto migliore e minimale.

Informatica Portale Informatica
Matematica Portale Matematica
Statistica Portale Statistica

Questo articolo utilizza materiale dall'articolo Wikipedia Overfitting, che viene rilasciato sotto il Creative Commons Attribution-Share-Alike License 3.0.