Cos'è la foresta casuale?

La foresta casuale è una tecnica utilizzata nella modellazione di previsioni e analisi del comportamento ed è basata su alberi decisionali. Contiene molti alberi decisionali che rappresentano un'istanza distinta della classificazione dell'input di dati nella foresta casuale. La tecnica della foresta casuale prende in considerazione le istanze individualmente, prendendo quella con la maggioranza dei voti come previsione selezionata.

Foresta casuale Figura 1. Struttura della foresta casuale (fonte)

Ogni albero nelle classificazioni prende l'input dai campioni nel dataset iniziale. Le caratteristiche vengono quindi selezionate in modo casuale, che vengono utilizzate per far crescere l'albero in ogni nodo. Tutti gli alberi della foresta non devono essere potati fino alla fine dell'esercizio, quando la previsione è stata raggiunta in modo decisivo. In tal modo, la foresta casuale consente a qualsiasi classificatore con correlazioni deboli di creare un classificatore forte.

Riepilogo rapido

  • La foresta casuale è una combinazione di alberi decisionali che possono essere modellati per la previsione e l'analisi del comportamento.
  • L'albero decisionale in una foresta non può essere tagliato per il campionamento e, quindi, per la selezione delle previsioni.
  • La tecnica della foresta casuale può gestire set di dati di grandi dimensioni grazie alla sua capacità di lavorare con molte variabili che arrivano a migliaia.

Previsioni di modellazione

Il metodo foresta casuale può creare modelli di previsione utilizzando alberi di regressione foresta casuale, che di solito non sono potati per fornire previsioni forti. Il metodo di campionamento bootstrap viene utilizzato sugli alberi di regressione, che non devono essere eliminati. I nodi ottimali vengono campionati dal totale dei nodi nell'albero per formare la caratteristica di divisione ottimale.

La tecnica di campionamento casuale utilizzata nella selezione della caratteristica di scissione ottimale riduce la correlazione e, di conseguenza, la varianza degli alberi di regressione. Migliora la capacità predittiva di alberi distinti nella foresta. Il campionamento tramite bootstrap aumenta anche l'indipendenza tra i singoli alberi.

Importanza variabile

Le variabili (caratteristiche) sono importanti per la foresta casuale poiché è una sfida interpretare i modelli, soprattutto da un punto di vista biologico. L'approccio ingenuo mostra l'importanza delle variabili assegnando importanza a una variabile in base alla frequenza della sua inclusione nel campione da parte di tutti gli alberi. Può essere ottenuto facilmente, ma rappresenta una sfida poiché gli effetti sulla riduzione dei costi e sull'aumento della precisione sono ridondanti.

L'importanza della permutazione è una misura che tiene traccia dell'accuratezza della previsione in cui le variabili sono permutate in modo casuale da campioni fuori borsa. L'approccio all'importanza della permutazione funziona meglio dell'approccio ingenuo ma tende ad essere più costoso.

A causa delle sfide della foresta casuale che non è in grado di interpretare le previsioni abbastanza bene dal punto di vista biologico, la tecnica si basa sull'ingenua, media diminuzione dell'impurità e sugli approcci di importanza della permutazione per dare loro un'interpretabilità diretta alle sfide. I tre approcci supportano le variabili predittive con più categorie.

Nel caso di variabili predittive continue con un numero simile di categorie, tuttavia, sia l'approccio di importanza della permutazione che quello dell'impurità di diminuzione media non mostrano pregiudizi Distorsione di data mining bias di data mining si riferisce a un'ipotesi di importanza che un trader assegna a un evento nel mercato che in realtà era un risultato del caso o imprevisto. La selezione variabile spesso viene fornita con pregiudizi. Per evitarlo, si dovrebbe condurre il sottocampionamento senza sostituzione e, laddove viene utilizzata l'inferenza condizionale, dovrebbe essere applicata la tecnica della foresta casuale.

Foreste casuali oblique

Le foreste casuali oblique sono uniche in quanto utilizzano divisioni oblique per le decisioni al posto delle divisioni decisionali convenzionali nei nodi. Le foreste oblique mostrano molta superiorità esibendo le seguenti qualità.

In primo luogo, possono separare le distribuzioni sugli assi delle coordinate mediante l'uso di una singola divisione multivariata che includerebbe le divisioni allineate all'asse profonde convenzionalmente necessarie. In secondo luogo, consentono una minore distorsione dagli alberi decisionali per i vincoli tracciati. Le divisioni convenzionali allineate all'asse richiederebbero altri due livelli di annidamento quando si separano classi simili con le divisioni oblique che ne rendono più facile ed efficiente l'uso.

Classificatore di foresta casuale

Il classificatore di foresta casuale è una raccolta di alberi di previsione, in cui ogni albero dipende da vettori casuali campionati indipendentemente, con distribuzione simile con ogni altro albero nella foresta casuale. Progettato originariamente per l'apprendimento automatico, il classificatore ha guadagnato popolarità nella comunità di telerilevamento, dove viene applicato nella classificazione delle immagini telerilevate grazie alla sua elevata precisione. Raggiunge anche la velocità corretta richiesta e un'efficiente parametrizzazione nel processo. Il classificatore di foresta casuale esegue il bootstrap di campioni casuali in cui viene selezionata la previsione con il voto più alto di tutti gli alberi.

L'individualità degli alberi è importante nell'intero processo. L'individualità di ogni albero è garantita grazie alle seguenti qualità. Innanzitutto, ogni addestramento ad albero nel campione utilizza sottoinsiemi casuali dai campioni di addestramento iniziale. In secondo luogo, la suddivisione ottimale viene scelta dalle caratteristiche selezionate casualmente dei nodi dell'albero non potati. In terzo luogo, ogni albero cresce senza limiti e non dovrebbe essere tagliato in alcun modo.

Vantaggi delle foreste casuali

Le foreste casuali presentano stime per l'importanza variabile, cioè le reti neurali. Offrono anche un metodo superiore per lavorare con i dati mancanti. I valori mancanti vengono sostituiti dalla variabile che appare di più in un particolare nodo. Tra tutti i metodi di classificazione disponibili, le foreste casuali forniscono la massima precisione.

La tecnica della foresta casuale può anche gestire i big data con numerose variabili che arrivano a migliaia. Può bilanciare automaticamente i set di dati quando una classe è più rara di altre classi nei dati. Il metodo gestisce anche le variabili velocemente, rendendolo adatto per compiti complicati.

Più risorse

Finance offre la certificazione FMVA® Financial Modeling & Valuation Analyst (FMVA) ™ Unisciti a oltre 350.600 studenti che lavorano per aziende come Amazon, JP Morgan e il programma di certificazione Ferrari per coloro che desiderano portare la propria carriera a un livello superiore. Per continuare ad apprendere e sviluppare la tua knowledge base, esplora le ulteriori risorse finanziarie pertinenti di seguito:

  • Analisi dei dati trasversali Analisi dei dati trasversali L'analisi dei dati trasversali è l'analisi dei set di dati trasversali. I sondaggi e i registri governativi sono alcune fonti comuni di dati trasversali
  • Cluster Sampling Cluster Sampling Nelle statistiche, il cluster sampling è un metodo di campionamento in cui l'intera popolazione dello studio è suddivisa in esternamente omogenea ma internamente
  • Distribuzione normale Distribuzione normale La distribuzione normale viene anche chiamata distribuzione gaussiana o gaussiana. Questo tipo di distribuzione è ampiamente utilizzato nelle scienze naturali e sociali. Il
  • Il criterio di Roy Safety-First Criterion Roy's Safety-first Criterion Il criterio di Roy prima di tutto la sicurezza è una tecnica di gestione del rischio utilizzata dagli investitori per confrontare e scegliere un portafoglio in base al criterio che la probabilità

Raccomandato

Crackstreams è stato chiuso?
2022
Il centro di comando MC è sicuro?
2022
Taliesin sta lasciando il ruolo critico?
2022