Cos'è il Bagging (Bootstrap Aggregation)?

L'apprendimento automatico dell'insieme può essere principalmente classificato in insaccamento e potenziamento. La tecnica del bagging è utile sia per la regressione che per la classificazione statistica. Il bagging viene utilizzato con gli alberi decisionali, dove aumenta in modo significativo la stabilità dei modelli nella riduzione della varianza e nel miglioramento della precisione, eliminando la sfida dell'overfitting.

Insaccamento

Figura 1. Flusso di insaccamento (Bootstrap Aggregation). fonte

Il bagging nel machine learning dell'insieme richiede diversi modelli deboli, aggregando le previsioni per selezionare la migliore previsione. I modelli deboli sono specializzati in sezioni distinte dello spazio delle funzionalità, il che consente a ogni modello di ottenere previsioni di leva finanziaria per il raggiungimento del massimo scopo.

Su mmario veloce

  • Bagging e boosting sono i due metodi principali di apprendimento automatico dell'insieme.
  • Il bagging è un metodo di insieme che può essere utilizzato nella regressione e nella classificazione.
  • È anche noto come aggregazione bootstrap, che forma le due classificazioni del bagging.

Cos'è il bootstrap?

Il bagging è composto da due parti: aggregazione e bootstrap. Il bootstrap è un metodo di campionamento, in cui un campione viene scelto da un set, utilizzando il metodo di sostituzione. L'algoritmo di apprendimento viene quindi eseguito sui campioni selezionati.

La tecnica del bootstrap utilizza il campionamento con sostituzioni per rendere la procedura di selezione completamente casuale. Quando un campione viene selezionato senza sostituzione, le successive selezioni di variabili dipendono sempre dalle selezioni precedenti, rendendo quindi i criteri non casuali.

Cos'è l'aggregazione?

Le previsioni del modello vengono aggregate per combinarle in modo che la previsione finale consideri tutti i risultati possibili. L'aggregazione può essere effettuata in base al numero totale di risultati o alla probabilità di previsioni derivate dal bootstrap di ogni modello nella procedura.

Cos'è un metodo Ensemble?

Sia l'insacco che il potenziamento formano le tecniche di insieme più importanti. Un metodo ensemble è una piattaforma di machine learning che aiuta più modelli nella formazione attraverso l'uso dello stesso algoritmo di apprendimento. Il metodo dell'ensemble è un partecipante di un gruppo più ampio di multiclassificatori.

I multi-classificatori sono un gruppo di più studenti, in esecuzione in migliaia, con un obiettivo comune che può fondere e risolvere un problema comune. Un'altra categoria di multi-classificatori sono i metodi ibridi. I metodi ibridi utilizzano una serie di studenti, ma a differenza dei multi-classificatori, possono utilizzare metodi di apprendimento distinti.

L'apprendimento deve affrontare molteplici sfide, come gli errori dovuti principalmente a pregiudizi, rumore e varianza. L'accuratezza e la stabilità dell'apprendimento automatico sono garantite da metodi di insieme come il bagging e il boosting. Combinazioni multiple di classificatori riducono la varianza, soprattutto quando i classificatori sono instabili e sono importanti per presentare risultati più affidabili rispetto a un singolo classificatore.

L'applicazione del bagging o del boosting richiede prima la selezione di un algoritmo di base dello studente. Ad esempio, se si sceglie un albero di classificazione, il boosting e il bagging sarebbero un pool di alberi con una dimensione uguale alle preferenze dell'utente.

Vantaggi e svantaggi del confezionamento

Foresta casuale Foresta casuale La foresta casuale è una tecnica utilizzata nella modellazione di previsioni e analisi del comportamento ed è basata su alberi decisionali. Una foresta casuale contiene molti alberi decisionali è uno degli algoritmi di insaccamento più popolari. Insaccare offre il vantaggio di consentire a molti studenti deboli di unire gli sforzi per superare un singolo studente forte. Aiuta anche a ridurre la varianza, eliminando quindi l'overfitting Overfitting Overfitting è un termine utilizzato nelle statistiche che si riferisce a un errore di modellazione che si verifica quando una funzione corrisponde troppo da vicino a un particolare insieme di dati di modelli nella procedura.

Uno svantaggio del bagging è che introduce una perdita di interpretabilità di un modello. Il modello risultante può subire molti bias quando la procedura corretta viene ignorata. Nonostante l'insacco sia estremamente accurato, può essere costoso in termini di calcolo e questo potrebbe scoraggiarne l'uso in alcuni casi.

Insaccamento e potenziamento

La migliore tecnica da utilizzare tra insaccamento e boosting dipende dai dati disponibili, dalla simulazione e da qualsiasi circostanza esistente al momento. La varianza di una stima viene significativamente ridotta dalle tecniche di insaccamento e potenziamento durante la procedura di combinazione, aumentando così la precisione. Pertanto, i risultati ottenuti dimostrano una maggiore stabilità rispetto ai risultati individuali.

Quando un evento presenta la sfida di basse prestazioni, la tecnica di insaccamento non si tradurrà in un bias migliore. Tuttavia, la tecnica del boosting genera un modello unificato con minori errori poiché si concentra sull'ottimizzazione dei vantaggi e sulla riduzione delle carenze in un unico modello.

Quando la sfida in un singolo modello è l'overfitting, il metodo di insaccamento funziona meglio della tecnica di boosting. Il potenziamento deve affrontare la sfida di gestire l'over-fitting poiché viene fornito con l'over-fitting in sé.

Letture correlate

Finance offre la certificazione FMVA® Financial Modeling & Valuation Analyst (FMVA) ™ Unisciti a oltre 350.600 studenti che lavorano per aziende come Amazon, JP Morgan e il programma di certificazione Ferrari per coloro che desiderano portare la propria carriera a un livello superiore. Per continuare ad apprendere e sviluppare la tua knowledge base, esplora le ulteriori risorse finanziarie pertinenti di seguito:

  • Cluster Sampling Cluster Sampling Nelle statistiche, il cluster sampling è un metodo di campionamento in cui l'intera popolazione dello studio è suddivisa in esternamente omogenea ma internamente
  • Distorsione da eccessiva sicurezza La distorsione da eccessiva sicurezza è una valutazione falsa e fuorviante delle nostre capacità, intelletto o talento. In breve, è una convinzione egoistica che siamo migliori di quanto siamo realmente. Può essere un pregiudizio pericoloso ed è molto prolifico nella finanza comportamentale e nei mercati dei capitali.
  • Analisi di regressione Analisi di regressione L'analisi di regressione è un insieme di metodi statistici utilizzati per la stima delle relazioni tra una variabile dipendente e una o più variabili indipendenti. Può essere utilizzato per valutare la forza della relazione tra le variabili e per modellare la relazione futura tra di loro.
  • Analisi dei dati delle serie temporali Analisi dei dati delle serie temporali L'analisi dei dati delle serie temporali è l'analisi di set di dati che cambiano in un periodo di tempo. I set di dati delle serie temporali registrano le osservazioni della stessa variabile in diversi momenti. Gli analisti finanziari utilizzano dati di serie temporali come i movimenti dei prezzi delle azioni o le vendite di un'azienda nel tempo

Raccomandato

Cos'è il margine di variazione?
Cos'è Reverse Morris Trust?
CFI vs Breaking Into Wall Street (BIWS)