Cos'è il fattore di inflazione della varianza (VIF)?

Il fattore di inflazione della varianza (VIF) misura la gravità della multicollinearità nell'analisi di regressione Analisi di regressione L'analisi di regressione è un insieme di metodi statistici utilizzati per la stima delle relazioni tra una variabile dipendente e una o più variabili indipendenti. Può essere utilizzato per valutare la forza della relazione tra le variabili e per modellare la relazione futura tra di loro. . È un concetto statistico che indica l'aumento della varianza di un coefficiente di regressione come risultato della collinearità.

Fattore di inflazione della varianza

Sommario

  • Il fattore di inflazione della varianza (VIF) viene utilizzato per rilevare la gravità della multicollinearità nell'analisi di regressione dei minimi quadrati ordinari (OLS).
  • La multicollinearità gonfia la varianza e l'errore di tipo II. Rende il coefficiente di una variabile coerente ma inaffidabile.
  • VIF misura il numero di varianze gonfiate causate dalla multicollinearità.

Fattore di inflazione della varianza e multicollinearità

Nell'analisi di regressione ordinaria dei minimi quadrati (OLS), la multicollinearità esiste quando due o più delle variabili indipendenti Variabile indipendente Una variabile indipendente è un input, un'ipotesi o un driver che viene modificato per valutare il suo impatto su una variabile dipendente (il risultato) . dimostrare una relazione lineare tra di loro. Ad esempio, per analizzare la relazione delle dimensioni e dei ricavi delle società con i prezzi delle azioni in un modello di regressione, le capitalizzazioni di mercato e i ricavi sono le variabili indipendenti.

Capitalizzazione di mercato di una società Capitalizzazione di mercato La capitalizzazione di mercato (capitalizzazione di mercato) è il valore di mercato più recente delle azioni in circolazione di una società. La capitalizzazione di mercato è uguale al prezzo corrente delle azioni moltiplicato per il numero di azioni in circolazione. La comunità degli investitori utilizza spesso il valore della capitalizzazione di mercato per classificare le aziende e il suo fatturato totale è fortemente correlato. Man mano che un'azienda guadagna ricavi crescenti, cresce anche di dimensioni. Porta a un problema di multicollinearità nell'analisi di regressione OLS. Se le variabili indipendenti in un modello di regressione mostrano una relazione lineare perfettamente prevedibile, è nota come multicollinearità perfetta.

Con la multicollinearità, i coefficienti di regressione sono ancora coerenti ma non sono più affidabili poiché gli errori standard sono gonfiati. Significa che il potere predittivo del modello non è ridotto, ma i coefficienti potrebbero non essere statisticamente significativi con un errore di tipo II Errore di tipo II Nel test di ipotesi statistica, un errore di tipo II è una situazione in cui un test di ipotesi non riesce a rifiutare l'ipotesi nulla che è falso. In altro .

Pertanto, se i coefficienti delle variabili non sono singolarmente significativi - non possono essere rifiutati rispettivamente nel test t - ma possono spiegare congiuntamente la varianza della variabile dipendente con il rifiuto nel test F e un coefficiente di determinazione alto (R2), potrebbe esistere multicollinearità. È uno dei metodi per rilevare la multicollinearità.

VIF è un altro strumento comunemente utilizzato per rilevare se la multicollinearità esiste in un modello di regressione. Misura quanto la varianza (o errore standard) del coefficiente di regressione stimato viene gonfiata a causa della collinearità.

Uso del fattore di inflazione della varianza

Il VIF può essere calcolato con la formula seguente:

Fattore di inflazione della varianza - Formula

Dove R i 2 rappresenta il coefficiente di determinazione non aggiustato per far regredire l'i-esima variabile indipendente sulle rimanenti. Il reciproco di VIF è noto come tolleranza . È possibile utilizzare VIF o tolleranza per rilevare la multicollinearità, a seconda delle preferenze personali.

Se R i 2 è uguale a 0, la varianza delle rimanenti variabili indipendenti non può essere prevista dalla i-esima variabile indipendente. Pertanto, quando VIF o tolleranza è uguale a 1, l'i-esima variabile indipendente non è correlata alle rimanenti, il che significa che la multicollinearità non esiste in questo modello di regressione. In questo caso, la varianza dell'i-esimo coefficiente di regressione non viene gonfiata.

In generale, un VIF superiore a 4 o una tolleranza inferiore a 0,25 indica che potrebbe esistere multicollinearità e sono necessarie ulteriori indagini. Quando VIF è superiore a 10 o la tolleranza è inferiore a 0,1, c'è una multicollinearità significativa che deve essere corretta.

Tuttavia, ci sono anche situazioni in cui VFI elevati possono essere tranquillamente ignorati senza soffrire di multicollinearità. Le seguenti sono tre di queste situazioni:

1. VIF elevati esistono solo nelle variabili di controllo, ma non nelle variabili di interesse. In questo caso, le variabili di interesse non sono allineate tra loro o le variabili di controllo. I coefficienti di regressione non vengono influenzati.

2. Quando VIF elevati sono causati dall'inclusione di prodotti o potenze di altre variabili, la multicollinearità non causa impatti negativi. Ad esempio, un modello di regressione include sia x che x2 come variabili indipendenti.

3. Quando una variabile fittizia che rappresenta più di due categorie ha un VIF elevato, la multicollinearità non esiste necessariamente. Le variabili avranno sempre VIF elevati se è presente una piccola porzione di casi nella categoria, indipendentemente dal fatto che le variabili categoriali siano correlate ad altre variabili.

Correzione della multicollinearità

Poiché la multicollinearità gonfia la varianza dei coefficienti e causa errori di tipo II, è essenziale rilevarla e correggerla. Esistono due modi semplici e comunemente usati per correggere la multicollinearità, come elencato di seguito:

1. Il primo è rimuovere una (o più) delle variabili altamente correlate. Poiché le informazioni fornite dalle variabili sono ridondanti, il coefficiente di determinazione non sarà notevolmente compromesso dalla rimozione.

2. Il secondo metodo consiste nell'utilizzare l'analisi delle componenti principali (PCA) o la regressione dei minimi quadrati parziale (PLS) invece della regressione OLS. La regressione PLS può ridurre le variabili a un insieme più piccolo senza alcuna correlazione tra di loro. In PCA vengono create nuove variabili non correlate. Riduce al minimo la perdita di informazioni e migliora la prevedibilità di un modello.

Più risorse

Finance è il fornitore ufficiale della certificazione CBCA ™ CBCA ™ globale Certified Banking & Credit Analyst (CBCA) ™ L'accreditamento Certified Banking & Credit Analyst (CBCA) ™ è uno standard globale per gli analisti del credito che copre finanza, contabilità, analisi del credito, analisi del flusso di cassa , modelli di alleanze, rimborsi di prestiti e altro ancora. programma di certificazione, progettato per aiutare chiunque a diventare un analista finanziario di livello mondiale. Per continuare a far progredire la tua carriera, le risorse aggiuntive di seguito saranno utili:

  • Concetti di statistica di base in finanza Concetti di statistica di base per la finanza Una solida comprensione delle statistiche è di fondamentale importanza per aiutarci a comprendere meglio la finanza. Inoltre, i concetti statistici possono aiutare gli investitori a monitorare
  • Metodi di previsione Metodi di previsione Principali metodi di previsione. In questo articolo, spiegheremo quattro tipi di metodi di previsione dei ricavi che gli analisti finanziari utilizzano per prevedere i ricavi futuri.
  • Regressione lineare multipla Regressione lineare multipla La regressione lineare multipla si riferisce a una tecnica statistica utilizzata per prevedere il risultato di una variabile dipendente in base al valore delle variabili indipendenti
  • Variabile casuale Variabile casuale Una variabile casuale (variabile stocastica) è un tipo di variabile nelle statistiche i cui valori possibili dipendono dai risultati di un certo fenomeno casuale

Raccomandato

Corsi di modellistica finanziaria a Toronto
Cos'è l'indicatore Vortex (VI)?
Cos'è l'analisi del credito bancario?