Qu'est-ce que LASSO?

LASSO, abréviation de Least Absolute Shrinkage and Selection Operator, est une formule statistique dont le but principal est la sélection de caractéristiques et la régularisation des modèles de données. La méthode a été introduite pour la première fois en 1996 par le professeur de statistique Robert Tibshirani. LASSO introduit des paramètres dans la somme d'un modèle, en lui donnant une limite supérieure qui agit comme une contrainte pour que la somme inclue des paramètres absolus dans une plage autorisée.

lasso

La méthode LASSO régularise les paramètres du modèle en réduisant les coefficients de régression, réduisant certains d'entre eux à zéro. La phase de sélection de fonction se produit après le retrait, où chaque valeur non nulle est sélectionnée pour être utilisée dans le modèle. Cette méthode est importante dans la minimisation des erreurs de prédiction qui sont courantes dans les modèles statistiques Analyse quantitative L'analyse quantitative est le processus de collecte et d'évaluation de données mesurables et vérifiables telles que les revenus, la part de marché et les salaires afin de comprendre le comportement et les performances d'un Entreprise. À l'ère de la technologie des données, l'analyse quantitative est considérée comme l'approche privilégiée pour prendre des décisions éclairées. .

LASSO propose des modèles avec une précision de prédiction élevée. La précision augmente puisque le procédé comprend le rétrécissement des coefficients, ce qui en retour réduit la variance et minimise le biais. Il fonctionne mieux lorsque le nombre d'observations est faible et le nombre d'entités est élevé. Il repose fortement sur le paramètre λ, qui est le facteur déterminant du retrait. Plus λ devient grand, plus il y a de coefficients forcés à zéro.

Lorsque λ est égal à zéro, le modèle devient la régression des moindres carrés ordinaires. Par conséquent, lorsque λ augmente, la variance diminue considérablement et le biais du résultat augmente également. Lasso est également un outil utile pour éliminer toutes les variables qui ne sont pas pertinentes et qui ne sont pas liées à la variable de réponse.

LASSO dans les modèles linéaires statistiques

Un modèle statistique est une représentation mathématique réelle d'un problème. Le modèle doit exprimer le problème aussi étroitement que possible au monde réel tout en le rendant simple et facile à comprendre. Un modèle est composé de variables explicatives et de réponse.

La variable explicative est une variable indépendante qui est à la discrétion du chercheur. Les variables indépendantes sont les entrées du modèle qui peuvent être mesurées par le chercheur pour déterminer leur effet sur les résultats du modèle.

La variable de réponse est une variable dépendante Variable dépendante Une variable dépendante est une variable qui changera en fonction de la valeur d'une autre variable, appelée variable indépendante. qui constitue le principal objectif de l'expérience. Il constitue le résultat de l'expérience, qui peut être un résultat unique dans le cas des modèles univariés, ou, dans le cas des modèles multivariés, des résultats multiples.

LASSO fait partie intégrante du processus de construction du modèle, en particulier en utilisant la sélection des fonctionnalités. La phase de sélection des caractéristiques facilite la sélection des variables explicatives, qui sont les variables indépendantes et, par conséquent, les variables d'entrée dans le modèle.

Les variables d'entrée sont des éléments importants qui déterminent la sortie du modèle et qui aident à mesurer leur effet sur les variables de réponse. Le choix des bonnes variables détermine la précision du modèle. La phase de sélection des fonctionnalités du LASSO aide à sélectionner correctement les variables.

Estimation avec LASSO

Les modèles statistiques s'appuient sur LASSO pour une sélection et une régularisation précises des variables. Dans l'analyse de régression linéaire Analyse de régression L'analyse de régression est un ensemble de méthodes statistiques utilisées pour l'estimation des relations entre une variable dépendante et une ou plusieurs variables indépendantes. Il peut être utilisé pour évaluer la force de la relation entre les variables et pour modéliser la relation future entre elles. , par exemple, LASSO introduit une borne supérieure pour la somme des carrés, minimisant ainsi les erreurs présentes dans le modèle. L'estimateur LASSO dépend du paramètre λ.

Le paramètre λ contrôle la force du retrait, où une augmentation de λ entraîne une augmentation du retrait. La borne supérieure de la somme de tous les coefficients est inversement proportionnelle au paramètre λ. Lorsque la limite supérieure augmente en valeur, le paramètre λ diminue. Lorsque la borne supérieure diminue, le paramètre λ augmente simultanément.

À mesure que la limite supérieure augmente vers l'infini, le paramètre λ s'approche de zéro, convertissant ainsi l'expérience en moindres carrés ordinaires, où le paramètre λ est toujours égal à zéro. Lorsque les coefficients supérieurs se rapprochent de zéro, la valeur du paramètre λ augmente vers l'infini.

Géométrie LASSO

LASSO forme une forme de losange dans le tracé pour sa région de contrainte, comme indiqué dans l'image ci-dessous. La forme du diamant comprend des coins, contrairement à la forme circulaire formée par la régression des arêtes. La proximité du premier point au coin montre que le modèle est livré avec un coefficient, qui est égal à zéro.

La région de contraintes de régression de crête forme une forme circulaire qui ne comprend aucun coin similaire à celui formé par la région de contraintes LASSO lorsqu'elle est tracée. Les coefficients de régression de crête peuvent donc ne pas être égaux à zéro.

LASSO pondéré

Le LASSO pondéré est le résultat d'un chercheur pénalisant les coefficients de régression isolément. Cela signifie qu'au lieu de pénaliser un paramètre commun λ à tous les coefficients, les coefficients sont pénalisés individuellement, en utilisant des paramètres différents.

Les poids peuvent être déterminés en utilisant un algorithme LASSO pour attribuer des poids de manière appropriée pour une modélisation précise. Une pondération similaire des coefficients de régression est la coopérative LASSO, où les coefficients sont pénalisés dans des groupes jugés similaires.

Ressources supplémentaires

Finance est le fournisseur officiel de la certification Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ L'accréditation Certified Banking & Credit Analyst (CBCA) ™ est une norme mondiale pour les analystes de crédit qui couvre la finance, la comptabilité, l'analyse de crédit, modélisation d'alliances, remboursements de prêts, etc. programme de certification, conçu pour transformer n'importe qui en analyste financier de classe mondiale.

Pour continuer à apprendre et à développer vos connaissances en analyse financière, nous vous recommandons vivement les ressources financières supplémentaires ci-dessous:

  • Méthodes de prévision Méthodes de prévision Principales méthodes de prévision. Dans cet article, nous expliquerons quatre types de méthodes de prévision des revenus que les analystes financiers utilisent pour prédire les revenus futurs.
  • Variable indépendante Variable indépendante Une variable indépendante est une entrée, une hypothèse ou un facteur qui est modifié afin d'évaluer son impact sur une variable dépendante (le résultat).
  • Régression linéaire multiple Régression linéaire multiple La régression linéaire multiple fait référence à une technique statistique utilisée pour prédire le résultat d'une variable dépendante basée sur la valeur de variables indépendantes
  • Analyse de scénario Analyse de scénario L'analyse de scénario est une technique utilisée pour analyser les décisions en spéculant divers résultats possibles dans les investissements financiers. Dans la modélisation financière, ce

Recommandé

Quelle est la valeur marchande?
Qu'est-ce que Vertex42®?
Qu'est-ce que l'indice Big Mac?