Cos'è l'overfitting?

L'overfitting è un termine utilizzato nelle statistiche che si riferisce a un errore di modellazione che si verifica quando una funzione corrisponde troppo da vicino a un particolare insieme di dati. Di conseguenza, l'overfitting potrebbe non riuscire a contenere dati aggiuntivi e ciò potrebbe influire sulla precisione della previsione delle osservazioni future.

Overfitting

L'overfitting può essere identificato controllando metriche di convalida come accuratezza e perdita. Le metriche di convalida di solito aumentano fino a un punto in cui ristagnano o iniziano a diminuire quando il modello è affetto da overfitting. Durante una tendenza al rialzo, il modello cerca un buon adattamento, che, una volta raggiunto, fa sì che il trend inizi a diminuire o ristagnare.

Riepilogo rapido

  • L'overfitting è un errore di modellazione che introduce pregiudizi nel modello perché è troppo strettamente correlato al set di dati.
  • L'overfitting rende il modello rilevante solo per il suo set di dati e irrilevante per qualsiasi altro set di dati.
  • Alcuni dei metodi utilizzati per prevenire l'overfitting includono l'insieme, l'aumento dei dati, la semplificazione dei dati e la convalida incrociata.

Come rilevare l'overfitting?

Rilevare l'overfitting è quasi impossibile prima di testare i dati. Può aiutare ad affrontare la caratteristica intrinseca dell'overfitting, che è l'incapacità di generalizzare i set di dati. I dati possono quindi essere separati in diversi sottoinsiemi per semplificare l'addestramento e il test. I dati sono suddivisi in due parti principali, ovvero un set di test e un set di addestramento.

Il set di addestramento rappresenta la maggioranza dei dati disponibili (circa l'80%) e addestra il modello. Il set di test rappresenta una piccola porzione del set di dati (circa il 20%) e viene utilizzato per testare l'accuratezza dei dati con cui non ha mai interagito prima. Segmentando il set di dati, possiamo esaminare le prestazioni del modello su ciascun set di dati per individuare l'overfitting quando si verifica, nonché vedere come funziona il processo di addestramento.

Le prestazioni possono essere misurate utilizzando la percentuale di accuratezza osservata in entrambi i set di dati per concludere sulla presenza di overfitting. Se il modello ha prestazioni migliori sul set di addestramento rispetto al set di test, significa che è probabile che il modello si adatti in eccesso.

Come prevenire l'overfitting?

Di seguito sono riportati alcuni dei modi per prevenire l'overfitting:

1. Allenamento con più dati

Uno dei modi per prevenire l'overfitting è allenarsi con più dati. Tale opzione semplifica gli algoritmi Algoritmi (Algos) Gli algoritmi (Algos) sono un insieme di istruzioni introdotte per eseguire un'attività Gli algoritmi vengono introdotti per automatizzare il trading per generare profitti a una frequenza impossibile per un trader umano di rilevare il segnale meglio ridurre al minimo gli errori. Man mano che l'utente inserisce più dati di addestramento nel modello, non sarà in grado di sovradattare tutti i campioni e sarà costretto a generalizzare per ottenere risultati.

Gli utenti dovrebbero raccogliere continuamente più dati per aumentare la precisione del modello. Tuttavia, questo metodo è considerato costoso e, pertanto, gli utenti dovrebbero assicurarsi che i dati utilizzati siano pertinenti e puliti.

2. Aumento dei dati

Un'alternativa alla formazione con più dati è l'aumento dei dati, che è meno costoso rispetto al primo. Se non sei in grado di raccogliere continuamente più dati, puoi far apparire diversi i set di dati disponibili. L'aumento dei dati rende i dati di esempio leggermente diversi ogni volta che vengono elaborati dal modello. Il processo fa sì che ogni set di dati appaia unico per il modello e impedisce al modello di apprendere le caratteristiche dei set di dati.

Un'altra opzione che funziona allo stesso modo dell'aumento dei dati è l'aggiunta di rumore ai dati di input e output. L'aggiunta di rumore all'ingresso rende il modello stabile, senza influire sulla qualità dei dati e sulla privacy, mentre l'aggiunta di rumore all'output rende i dati più diversificati. Tuttavia, l'aggiunta di rumore deve essere eseguita con moderazione in modo che l'entità del rumore non sia tanto da rendere i dati errati o troppo diversi.

3. Semplificazione dei dati

L'overfitting può verificarsi a causa della complessità di un modello, in modo tale che, anche con grandi volumi di dati, il modello riesce comunque a sovraadattare il set di dati di addestramento. Il metodo di semplificazione dei dati viene utilizzato per ridurre l'overfitting diminuendo la complessità del modello in modo da renderlo abbastanza semplice da non sovradattare.

Alcune delle azioni che possono essere implementate includono l'eliminazione di un albero decisionale, la riduzione del numero di parametri Parametro Un parametro è una componente utile dell'analisi statistica. Si riferisce alle caratteristiche utilizzate per definire una data popolazione. È utilizzato in una rete neurale e utilizza il dropout su una rete neutra. Semplificare il modello può anche renderlo più leggero e correre più veloce.

4. Ensembling

L'insieme è una tecnica di apprendimento automatico che funziona combinando previsioni da due o più modelli separati. I metodi di assemblaggio più popolari includono il potenziamento e l'insaccamento. Il potenziamento funziona utilizzando semplici modelli di base per aumentare la loro complessità aggregata. Forma un gran numero di studenti deboli disposti in sequenza, in modo tale che ogni studente nella sequenza impari dagli errori dello studente prima di esso.

Il potenziamento combina tutti gli studenti deboli nella sequenza per far emergere uno studente forte. L'altro metodo di assemblaggio è il confezionamento, che è l'opposto del potenziamento. Il bagging funziona formando un gran numero di studenti forti disposti in uno schema parallelo e quindi combinandoli per ottimizzare le loro previsioni.

Più risorse

Finance è il fornitore ufficiale della certificazione FMVA® Global Modeling & Valuation Analyst (FMVA) ™ Unisciti a oltre 350.600 studenti che lavorano per aziende come Amazon, JP Morgan e il programma di certificazione Ferrari, progettato per aiutare chiunque a diventare un analista finanziario di livello mondiale . Per continuare a far avanzare la tua carriera, le risorse finanziarie aggiuntive di seguito saranno utili:

  • Concetti di statistica di base in finanza Concetti di statistica di base per la finanza Una solida comprensione delle statistiche è di fondamentale importanza per aiutarci a comprendere meglio la finanza. Inoltre, i concetti statistici possono aiutare gli investitori a monitorare
  • Bias del data mining Bias del data mining Il bias del data mining si riferisce a un'ipotesi di importanza che un trader assegna a un evento nel mercato che in realtà è stato il risultato del caso o imprevisto
  • Foresta casuale Foresta casuale La foresta casuale è una tecnica utilizzata nella modellazione di previsioni e analisi del comportamento ed è costruita su alberi decisionali. Una foresta casuale contiene molti alberi decisionali
  • Probabilità incondizionata Probabilità incondizionata La probabilità incondizionata, nota anche come probabilità marginale, si riferisce a una probabilità che non è influenzata da eventi precedenti o futuri. In altre parole,

Raccomandato

Cos'è l'oscillatore stocastico?
Cos'è il voto diretto?
Cos'è l'antiriciclaggio?