Qu'est-ce que la régression linéaire multiple?

La régression linéaire multiple fait référence à une technique statistique utilisée pour prédire le résultat d'une variable en fonction de la valeur de deux variables ou plus. On l'appelle parfois simplement régression multiple et c'est une extension de la régression linéaire. La variable que nous voulons prédire est connue sous le nom de variable dépendante, tandis que les variables que nous utilisons pour prédire la valeur de la variable dépendante Variable dépendante Une variable dépendante est une variable qui changera en fonction de la valeur d'une autre variable, appelée variable indépendante. sont appelées variables indépendantes ou explicatives.

La régression linéaire multipleFigure 1: Prédictions du modèle de régression linéaire multiple pour les observations individuelles (Source)

Résumé

  • La régression linéaire multiple fait référence à une technique statistique qui utilise au moins deux variables indépendantes pour prédire le résultat d'une variable dépendante.
  • La technique permet aux analystes de déterminer la variation du modèle et la contribution relative de chaque variable indépendante dans la variance totale.
  • La régression multiple peut prendre deux formes, à savoir la régression linéaire et la régression non linéaire.

Formule de régression linéaire multiple

Régression linéaire multiple - Formule

Où:

  • yi est la variable dépendante ou prédite
  • β0 est l'ordonnée à l'origine, c'est-à-dire la valeur de y lorsque xi et x2 sont tous deux égaux à 0.
  • β1 et β2 sont les coefficients de régression qui représentent le changement de y par rapport à un changement d'une unité de xi1 et xi2 , respectivement.
  • βp est le coefficient de pente pour chaque variable indépendante
  • ϵ est le terme d'erreur aléatoire (résiduel) du modèle.

Comprendre la régression linéaire multiple

La régression linéaire simple permet aux statisticiens de prédire la valeur d'une variable en utilisant les informations disponibles sur une autre variable. La régression linéaire tente d'établir la relation entre les deux variables le long d'une ligne droite.

La régression multiple est un type de régression dans lequel la variable dépendante montre une relation linéaire avec au moins deux variables indépendantes. Il peut également être non linéaire , où les variables dépendantes et indépendantes Variable indépendante Une variable indépendante est une entrée, une hypothèse ou un moteur qui est modifié afin d'évaluer son impact sur une variable dépendante (le résultat). ne suivez pas une ligne droite.

La régression linéaire et non linéaire suit une réponse particulière en utilisant graphiquement deux variables ou plus. Cependant, la régression non linéaire est généralement difficile à exécuter, car elle est créée à partir d'hypothèses dérivées d'essais et d'erreurs.

Hypothèses de régression linéaire multiple

La régression linéaire multiple est basée sur les hypothèses suivantes:

1. Une relation linéaire entre les variables dépendantes et indépendantes

La première hypothèse de la régression linéaire multiple est qu'il existe une relation linéaire entre la variable dépendante et chacune des variables indépendantes. La meilleure façon de vérifier les relations linéaires est de créer des nuages ​​de points, puis d'inspecter visuellement les nuages ​​de points pour la linéarité. Si la relation affichée dans le nuage de points n'est pas linéaire, l'analyste devra alors exécuter une régression non linéaire ou transformer les données à l'aide d'un logiciel statistique, tel que SPSS.

2. Les variables indépendantes ne sont pas fortement corrélées les unes aux autres

Les données ne doivent pas montrer de multicolinéarité, qui se produit lorsque les variables indépendantes (variables explicatives) sont fortement corrélées les unes aux autres. Lorsque des variables indépendantes montrent une multicolinéarité, il y aura des problèmes pour déterminer la variable spécifique qui contribue à la variance de la variable dépendante. La meilleure méthode pour tester l'hypothèse est la méthode du facteur d'inflation de la variance.

3. La variance des résidus est constante

La régression linéaire multiple suppose que la quantité d'erreur dans les résidus est similaire à chaque point du modèle linéaire. Ce scénario est connu sous le nom d'homoscédasticité. Lors de l'analyse des données, l'analyste doit tracer les résidus normalisés par rapport aux valeurs prédites pour déterminer si les points sont répartis équitablement sur toutes les valeurs des variables indépendantes. Pour tester l'hypothèse, les données peuvent être tracées sur un nuage de points ou en utilisant un logiciel statistique pour produire un nuage de points qui inclut le modèle entier.

4. Indépendance d'observation

Le modèle suppose que les observations doivent être indépendantes les unes des autres. En termes simples, le modèle suppose que les valeurs des résidus sont indépendantes. Pour tester cette hypothèse, nous utilisons la statistique de Durbin Watson.

Le test affichera des valeurs de 0 à 4, où une valeur de 0 à 2 indique une autocorrélation positive et des valeurs de 2 à 4 une autocorrélation négative. Le point médian, c'est-à-dire une valeur de 2, montre qu'il n'y a pas d'autocorrélation.

5. Normalité multivariée

La normalité multivariée se produit lorsque les résidus sont normalement distribués. Pour tester cette hypothèse, regardez comment les valeurs des résidus sont distribuées. Il peut également être testé en utilisant deux méthodes principales, à savoir, un histogramme avec une courbe normale superposée ou la méthode du diagramme de probabilité normale.

Plus de ressources

Finance offre la certification Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ L'accréditation Certified Banking & Credit Analyst (CBCA) ™ est une norme mondiale pour les analystes de crédit qui couvre la finance, la comptabilité, l'analyse de crédit, l'analyse des flux de trésorerie, la modélisation des clauses restrictives, les prêts remboursements, et plus encore. programme de certification pour ceux qui cherchent à faire progresser leur carrière. Pour continuer à apprendre et développer votre base de connaissances, veuillez explorer les ressources financières pertinentes supplémentaires ci-dessous:

  • Méthodes de prévision Méthodes de prévision Principales méthodes de prévision. Dans cet article, nous expliquerons quatre types de méthodes de prévision des revenus que les analystes financiers utilisent pour prédire les revenus futurs.
  • Distribution de Poisson Distribution de Poisson La distribution de Poisson est un outil utilisé dans les statistiques de la théorie des probabilités pour prédire la quantité de variation à partir d'un taux d'occurrence moyen connu,
  • Variable aléatoire Variable aléatoire Une variable aléatoire (variable stochastique) est un type de variable en statistique dont les valeurs possibles dépendent des résultats d'un certain phénomène aléatoire
  • Analyse de régression Analyse de régression L'analyse de régression est un ensemble de méthodes statistiques utilisées pour estimer les relations entre une variable dépendante et une ou plusieurs variables indépendantes. Il peut être utilisé pour évaluer la force de la relation entre les variables et pour modéliser la relation future entre elles.

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022