Quel est le facteur d'inflation de variance (VIF)?

Le facteur d'inflation de variance (VIF) mesure la gravité de la multicolinéarité dans l'analyse de régression Analyse de régression L'analyse de régression est un ensemble de méthodes statistiques utilisées pour estimer les relations entre une variable dépendante et une ou plusieurs variables indépendantes. Il peut être utilisé pour évaluer la force de la relation entre les variables et pour modéliser la relation future entre elles. . C'est un concept statistique qui indique l'augmentation de la variance d'un coefficient de régression en raison de la colinéarité.

Facteur d'inflation de variance

Résumé

  • Le facteur d'inflation de variance (VIF) est utilisé pour détecter la gravité de la multicolinéarité dans l'analyse de régression des moindres carrés ordinaires (MCO).
  • La multicolinéarité gonfle la variance et l'erreur de type II. Cela rend le coefficient d'une variable cohérent mais peu fiable.
  • VIF mesure le nombre de variances gonflées causées par la multicolinéarité.

Facteur d'inflation de variance et multicollinéarité

Dans l'analyse de régression des moindres carrés ordinaires (MCO), la multicolinéarité existe lorsque deux ou plusieurs des variables indépendantes Variable indépendante Une variable indépendante est une entrée, une hypothèse ou un inducteur qui est modifié afin d'évaluer son impact sur une variable dépendante (le résultat) . démontrer une relation linéaire entre eux. Par exemple, pour analyser la relation entre la taille et les revenus des entreprises et les cours des actions dans un modèle de régression, les capitalisations boursières et les revenus sont les variables indépendantes.

Capitalisation boursière d'une entreprise Capitalisation boursière La capitalisation boursière (capitalisation boursière) est la valeur marchande la plus récente des actions en circulation d'une entreprise. La capitalisation boursière est égale au cours actuel de l'action multiplié par le nombre d'actions en circulation. La communauté des investisseurs utilise souvent la valeur de capitalisation boursière pour classer les entreprises et son chiffre d'affaires total est fortement corrélé. Lorsqu'une entreprise génère des revenus croissants, sa taille augmente également. Cela conduit à un problème de multicolinéarité dans l'analyse de régression OLS. Si les variables indépendantes dans un modèle de régression montrent une relation linéaire parfaitement prévisible, on parle de multicolinéarité parfaite.

Avec la multicolinéarité, les coefficients de régression sont toujours cohérents mais ne sont plus fiables car les erreurs types sont gonflées. Cela signifie que la puissance prédictive du modèle n'est pas réduite, mais que les coefficients peuvent ne pas être statistiquement significatifs avec une erreur de type II Erreur de type II Dans le test d'hypothèse statistique, une erreur de type II est une situation dans laquelle un test d'hypothèse ne parvient pas à rejeter l'hypothèse nulle qui c'est faux. En d'autre .

Par conséquent, si les coefficients des variables ne sont pas individuellement significatifs - ne peuvent pas être rejetés dans le test t, respectivement - mais peuvent expliquer conjointement la variance de la variable dépendante avec rejet dans le test F et un coefficient de détermination élevé (R2), la multicolinéarité peut exister. C'est l'une des méthodes de détection de la multicolinéarité.

VIF est un autre outil couramment utilisé pour détecter si la multicolinéarité existe dans un modèle de régression. Il mesure à quel point la variance (ou erreur type) du coefficient de régression estimé est gonflée en raison de la colinéarité.

Utilisation du facteur d'inflation de variance

VIF peut être calculé par la formule ci-dessous:

Facteur d'inflation de variance - Formule

R i 2 représente le coefficient de détermination non ajusté pour régresser la ième variable indépendante sur les autres. La réciproque de VIF est connue sous le nom de tolérance . Le VIF ou la tolérance peuvent être utilisés pour détecter la multicolinéarité, selon les préférences personnelles.

Si R i 2 est égal à 0, la variance des variables indépendantes restantes ne peut pas être prédite à partir de la ième variable indépendante. Par conséquent, lorsque le VIF ou la tolérance est égal à 1, la ième variable indépendante n'est pas corrélée aux autres, ce qui signifie que la multicolinéarité n'existe pas dans ce modèle de régression. Dans ce cas, la variance du ième coefficient de régression n'est pas gonflée.

En général, un VIF supérieur à 4 ou une tolérance inférieure à 0,25 indique qu'une multicolinéarité peut exister, et une enquête plus approfondie est nécessaire. Lorsque VIF est supérieur à 10 ou que la tolérance est inférieure à 0,1, il existe une multicolinéarité significative qui doit être corrigée.

Cependant, il existe également des situations dans lesquelles des VFI élevés peuvent être ignorés en toute sécurité sans souffrir de multicolinéarité. Voici trois de ces situations:

1. Les VIF élevés n'existent que dans les variables de contrôle, mais pas dans les variables d'intérêt. Dans ce cas, les variables d'intérêt ne sont pas colinéaires entre elles ou avec les variables de contrôle. Les coefficients de régression ne sont pas impactés.

2. Lorsque des VIF élevés résultent de l'inclusion des produits ou des puissances d'autres variables, la multicolinéarité ne provoque pas d'impacts négatifs. Par exemple, un modèle de régression inclut à la fois x et x2 comme variables indépendantes.

3. Lorsqu'une variable fictive qui représente plus de deux catégories a un VIF élevé, la multicolinéarité n'existe pas nécessairement. Les variables auront toujours des VIF élevés s'il y a une petite partie des observations dans la catégorie, que les variables catégorielles soient ou non corrélées à d'autres variables.

Correction de la multicolinéarité

Puisque la multicolinéarité gonfle la variance des coefficients et provoque des erreurs de type II, il est essentiel de la détecter et de la corriger. Il existe deux méthodes simples et couramment utilisées pour corriger la multicolinéarité, comme indiqué ci-dessous:

1. La première consiste à supprimer une (ou plusieurs) des variables hautement corrélées. Etant donné que les informations fournies par les variables sont redondantes, le coefficient de détermination ne sera pas fortement altéré par la suppression.

2. La deuxième méthode consiste à utiliser l'analyse en composantes principales (ACP) ou la régression partielle des moindres carrés (PLS) au lieu de la régression OLS. La régression PLS peut réduire les variables à un ensemble plus petit sans corrélation entre elles. Dans PCA, de nouvelles variables non corrélées sont créées. Il minimise la perte d'informations et améliore la prévisibilité d'un modèle.

Plus de ressources

Finance est le fournisseur officiel de la certification mondiale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ L'accréditation Certified Banking & Credit Analyst (CBCA) ™ est une norme mondiale pour les analystes de crédit qui couvre la finance, la comptabilité, l'analyse de crédit et l'analyse des flux de trésorerie , modélisation d'alliances, remboursements de prêts, etc. programme de certification, conçu pour aider quiconque à devenir un analyste financier de classe mondiale. Pour continuer à faire avancer votre carrière, les ressources supplémentaires ci-dessous vous seront utiles:

  • Concepts statistiques de base en finance Concepts statistiques de base en finance Une solide compréhension des statistiques est essentielle pour nous aider à mieux comprendre la finance. De plus, les concepts de statistiques peuvent aider les investisseurs à surveiller
  • Méthodes de prévision Méthodes de prévision Principales méthodes de prévision. Dans cet article, nous expliquerons quatre types de méthodes de prévision des revenus que les analystes financiers utilisent pour prédire les revenus futurs.
  • Régression linéaire multiple Régression linéaire multiple La régression linéaire multiple fait référence à une technique statistique utilisée pour prédire le résultat d'une variable dépendante en fonction de la valeur de variables indépendantes
  • Variable aléatoire Variable aléatoire Une variable aléatoire (variable stochastique) est un type de variable en statistique dont les valeurs possibles dépendent des résultats d'un certain phénomène aléatoire

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022