Qu'est-ce qu'Elastic Net?

La régression linéaire nette élastique utilise les pénalités des techniques de lasso et de crête pour régulariser les modèles de régression. La technique combine à la fois le lasso LASSO LASSO, abréviation de Least Absolute Shrinkage and Selection Operator, est une formule statistique dont le but principal est la sélection et la régression de caractéristiques et les méthodes de régression des crêtes en apprenant de leurs lacunes pour améliorer la régularisation des modèles statistiques.

Filet élastique

La méthode du filet élastique améliore les limites du lasso, c'est-à-dire que lorsque le lasso prend quelques échantillons pour des données de grande dimension, la procédure du filet élastique fournit l'inclusion d'un nombre «n» de variables jusqu'à saturation. Dans un cas où les variables sont des groupes fortement corrélés, le lasso a tendance à choisir une variable parmi ces groupes et à ignorer complètement le reste.

Pour éliminer les limitations trouvées dans le lasso, le réseau élastique inclut une expression quadratique (|| β || 2) dans la pénalité, qui, lorsqu'elle est utilisée isolément, devient une régression de crête. L'expression quadratique de la pénalité élève la fonction de perte vers une forme convexe. Le filet élastique s'appuie sur le meilleur des deux mondes - c'est-à-dire la régression au lasso et à la crête.

Dans la procédure de recherche de l'estimateur de la méthode du filet élastique, il y a deux étapes qui impliquent à la fois les techniques de lasso et de régression. Il trouve d'abord les coefficients de régression de crête, puis effectue la deuxième étape en utilisant une sorte de retrait au lasso des coefficients.

Cette méthode soumet donc les coefficients à deux types de retrait. Le double retrait de la version naïve du filet élastique entraîne une faible efficacité de prévisibilité et un biais élevé. Pour corriger ces effets, les coefficients sont remis à l'échelle en les multipliant par (1 + λ 2 ).

Résumé rapide

  • La méthode du filet élastique effectue simultanément la sélection et la régularisation des variables.
  • La technique du filet élastique est la plus appropriée lorsque les données dimensionnelles sont supérieures au nombre d'échantillons utilisés.
  • Les regroupements et la sélection des variables sont les rôles clés de la technique du filet élastique.

Géométrie du filet élastique

Lorsqu'il est tracé sur un plan cartésien, le filet élastique se situe entre les graphiques de régression de crête et de lasso, puisqu'il s'agit de la combinaison de ces deux méthodes de régression. Le tracé du réseau élastique présente également une singularité aux sommets, ce qui est important pour la parcimonie. Il présente également des arêtes convexes strictes où la convexité dépend de la valeur de α.

La convexité dépend également de l'effet de regroupement en fonction de la corrélation. Corrélation Une corrélation est une mesure statistique de la relation entre deux variables. La mesure est mieux utilisée dans les variables qui démontrent une relation linéaire entre elles. L'ajustement des données peut être représenté visuellement dans un nuage de points. des variables sélectionnées. Plus la corrélation des variables est élevée, plus l'effet de regroupement est élevé et, par conséquent, plus le nombre de variables incluses dans l'échantillon est élevé.

Sélection des variables

La création de modèles nécessite la sélection de variables pour former un sous-ensemble de prédicteurs. Elastic net utilise l'approche du problème p >> n, ce qui signifie que le nombre de nombres de prédicteurs est supérieur au nombre d'échantillons utilisés dans le modèle. Le filet élastique est approprié lorsque les variables forment des groupes qui contiennent des variables indépendantes fortement corrélées Variable indépendante Une variable indépendante est une entrée, une hypothèse ou un moteur qui est modifié afin d'évaluer son impact sur une variable dépendante (le résultat). .

La sélection de variables est incorporée dans la procédure de création de modèle pour aider à augmenter la précision. Dans le cas où un groupe de variables est fortement corrélé et qu'une des variables est sélectionnée dans l'échantillon, l'ensemble du groupe est automatiquement inclus dans l'échantillon.

Incorporation de CATREG

CATREG est un algorithme qui facilite la transformation de variables, à la fois linéaires et non linéaires. L'algorithme utilise des fonctions de pas et de spline pour transformer des variables de manière non monotone ou monotone dans des transformations non linéaires. CATREG peut simultanément transformer et régulariser des variables de manière non monotone sans nécessairement devoir d'abord développer des variables en fonctions de base ou en variables fictives.

Les fonctions de perte nette élastique peuvent également être appelées le type contraint de la fonction de perte de régression des moindres carrés ordinaires. L'algorithme CATREG est intégré dans le réseau élastique, ce qui améliore l'efficacité et la simplicité de l'algorithme résultant. En comparaison, le filet élastique surpasse le lasso, qui lui-même surpasse la régression des crêtes en termes d'efficacité et de simplicité.

Régularisation du filet élastique

Lors de la procédure de régularisation, la section l 1 de la pénalité forme un modèle épars. En revanche, la section quadratique de la pénalité rend la partie l 1 plus stable dans le chemin de la régularisation, élimine la limite de quantité de variables à sélectionner et favorise l'effet de regroupement.

L'effet de regroupement aide les variables à être facilement identifiées en utilisant la corrélation. Cela améliore la procédure d'échantillonnage. Cela augmente également le nombre de variables sélectionnées, car lorsqu'une variable est échantillonnée dans un groupe hautement corrélé, toutes les autres variables de ce groupe sont automatiquement ajoutées à l'échantillon.

Degrés de liberté effectifs

Les degrés de liberté effectifs mesurent la complexité d'un modèle. Les degrés de liberté sont importants lors de l'estimation ou de la prédiction précise d'un ajustement de modèle. Des degrés de liberté sont également incorporés dans l'apprentissage des lisseurs linéaires. Dans toute méthode liée à la pénalité l 1 , la nature non linéaire des modèles soulève le défi de l'analyse.

Le filet élastique peut également être utilisé dans d'autres applications, comme dans la PCA clairsemée, où il obtient des composants principaux qui sont modifiés par des charges clairsemées. L'autre application est dans le réseau élastique du noyau, où la génération des machines du noyau de classe a lieu avec des vecteurs de support.

Ressources supplémentaires

Finance offre la certification Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ L'accréditation Certified Banking & Credit Analyst (CBCA) ™ est une norme mondiale pour les analystes de crédit qui couvre la finance, la comptabilité, l'analyse de crédit, l'analyse des flux de trésorerie, la modélisation des clauses restrictives, les prêts remboursements, et plus encore. programme de certification pour ceux qui cherchent à faire progresser leur carrière. Pour continuer à apprendre et développer votre base de connaissances, veuillez explorer les ressources financières pertinentes supplémentaires ci-dessous:

  • Arbre de décision Arbre de décision Un arbre de décision est un outil de support avec une structure arborescente qui modélise les résultats probables, le coût des ressources, les services publics et les conséquences possibles.
  • Variable dépendante Variable dépendante Une variable dépendante est une variable qui changera en fonction de la valeur d'une autre variable, appelée variable indépendante.
  • Régression linéaire multiple Régression linéaire multiple La régression linéaire multiple fait référence à une technique statistique utilisée pour prédire le résultat d'une variable dépendante en fonction de la valeur de variables indépendantes
  • Overfitting Overfitting Overfitting est un terme utilisé dans les statistiques qui fait référence à une erreur de modélisation qui se produit lorsqu'une fonction correspond trop étroitement à un ensemble particulier de données

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022