Que sont les méthodes d'ensemble?

Les méthodes d'ensemble sont des techniques qui visent à améliorer la précision des résultats dans les modèles en combinant plusieurs modèles au lieu d'utiliser un seul modèle. Les modèles combinés augmentent considérablement la précision des résultats. Cela a renforcé la popularité des méthodes d'ensemble dans l'apprentissage automatique.

Méthodes d'ensemble

Résumé rapide

  • Les méthodes d'ensemble visent à améliorer la prévisibilité des modèles en combinant plusieurs modèles pour en faire un modèle très fiable.
  • Les méthodes d'ensemble les plus populaires sont le boosting, l'ensachage et l'empilage.
  • Les méthodes d'ensemble sont idéales pour la régression et la classification, où elles réduisent le biais et la variance pour améliorer la précision des modèles.

Catégories de méthodes d'ensemble

Les méthodes d'ensemble se divisent en deux grandes catégories, à savoir les techniques d'ensemble séquentielles et les techniques d'ensemble parallèle. Les techniques d'ensemble séquentielles génèrent des apprenants de base dans une séquence, par exemple, Adaptive Boosting (AdaBoost). La génération séquentielle des apprenants de base favorise la dépendance entre les apprenants de base. Les performances du modèle sont ensuite améliorées en attribuant des poids plus élevés aux apprenants précédemment mal représentés.

Dans les techniques d'ensemble parallèles , les apprenants de base sont générés dans un format parallèle, par exemple, forêt aléatoire Forêt aléatoire La forêt aléatoire est une technique utilisée dans la modélisation des prédictions et l'analyse du comportement et est construite sur des arbres de décision. Une forêt aléatoire contient de nombreux arbres de décision. Les méthodes parallèles utilisent la génération parallèle d'apprenants de base pour encourager l'indépendance entre les apprenants de base. L'indépendance des apprenants de base réduit considérablement l'erreur due à l'application de moyennes.

La majorité des techniques d'ensemble appliquent un seul algorithme dans l'apprentissage de base, ce qui se traduit par une homogénéité chez tous les apprenants de base. Les apprenants de base homogènes font référence aux apprenants de base du même type, avec des qualités similaires. D'autres méthodes appliquent des apprenants de base hétérogènes, donnant lieu à des ensembles hétérogènes. Les apprenants de base hétérogènes sont des apprenants de types distincts.

Principaux types de méthodes d'ensemble

1. Ensachage

L'ensachage, la forme abrégée de l'agrégation bootstrap, est principalement appliquée dans la classification et la régression Analyse de régression L'analyse de régression est un ensemble de méthodes statistiques utilisées pour estimer les relations entre une variable dépendante et une ou plusieurs variables indépendantes. Il peut être utilisé pour évaluer la force de la relation entre les variables et pour modéliser la relation future entre elles. . Il augmente la précision des modèles grâce à l'utilisation d'arbres de décision, ce qui réduit la variance dans une large mesure. La réduction de la variance augmente la précision, éliminant ainsi le surajustement, qui constitue un défi pour de nombreux modèles prédictifs.

L'ensachage est classé en deux types, à savoir le bootstrap et l'agrégation. Le bootstrap est une technique d'échantillonnage où les échantillons sont dérivés de l'ensemble de la population (ensemble) à l'aide de la procédure de remplacement. La méthode d'échantillonnage avec remplacement permet de rendre la procédure de sélection aléatoire. L'algorithme d'apprentissage de base est exécuté sur les échantillons pour terminer la procédure.

L'agrégation dans l'ensachage est effectuée pour incorporer tous les résultats possibles de la prédiction et randomiser le résultat. Sans agrégation, les prévisions ne seront pas exactes, car tous les résultats ne sont pas pris en compte. L'agrégation est donc basée sur les procédures d'amorçage des probabilités ou sur la base de tous les résultats des modèles prédictifs.

L'ensachage est avantageux car les apprenants de base faibles sont combinés pour former un seul apprenant fort qui est plus stable que les apprenants isolés. Il élimine également toute variance, réduisant ainsi le surajustement des modèles. Une limitation de l'ensachage est qu'il est coûteux en calcul. Ainsi, cela peut conduire à plus de biais dans les modèles lorsque la procédure appropriée d'ensachage est ignorée.

2. Boosting

Le boosting est une technique d'ensemble qui apprend des erreurs de prédicteurs précédentes pour faire de meilleures prédictions à l'avenir. La technique combine plusieurs apprenants de base faibles pour former un seul apprenant fort, améliorant ainsi considérablement la prévisibilité des modèles. Stimuler les travaux en organisant les apprenants faibles dans une séquence, de sorte que les apprenants faibles apprennent de l'apprenant suivant dans la séquence pour créer de meilleurs modèles prédictifs.

Le renforcement prend de nombreuses formes, notamment le renforcement du gradient, le renforcement adaptatif (AdaBoost) et XGBoost (amplification de gradient extrême). AdaBoost utilise des apprenants faibles qui se présentent sous la forme d'arbres de décision, qui incluent principalement une division connue sous le nom de souches de décision. Le principal moignon de décision d'AdaBoost comprend des observations portant des poids similaires.

Augmentation du dégradé Augmentation du dégradé L'amplification du dégradé est une technique utilisée pour créer des modèles de prédiction. La technique est principalement utilisée dans les procédures de régression et de classification. ajoute des prédicteurs séquentiellement à l'ensemble, où les prédicteurs précédents corrigent leurs successeurs, augmentant ainsi la précision du modèle. Les nouveaux prédicteurs sont adaptés pour contrer les effets des erreurs dans les prédicteurs précédents. Le gradient de descente aide le booster de gradient à identifier les problèmes dans les prédictions des apprenants et à les contrer en conséquence.

XGBoost utilise des arbres de décision avec un gradient renforcé, offrant une vitesse et des performances améliorées. Il repose fortement sur la vitesse de calcul et les performances du modèle cible. La formation du modèle doit suivre une séquence, ce qui ralentit la mise en œuvre des machines à gradient boosté.

3. Empilement

L'empilement, une autre méthode d'ensemble, est souvent appelée généralisation empilée. Cette technique fonctionne en permettant à un algorithme d'apprentissage de regrouper plusieurs autres prédictions d'algorithmes d'apprentissage similaires. L'empilement a été mis en œuvre avec succès dans la régression, les estimations de densité, l'apprentissage à distance et les classifications. Il peut également être utilisé pour mesurer le taux d'erreur impliqué lors de l'ensachage.

Réduction de la variance

Les méthodes d'ensemble sont idéales pour réduire la variance des modèles, augmentant ainsi la précision des prévisions. La variance est éliminée lorsque plusieurs modèles sont combinés pour former une seule prédiction qui est choisie parmi toutes les autres prédictions possibles des modèles combinés. Un ensemble de modèles consiste à combiner divers modèles pour s'assurer que la prédiction qui en résulte est la meilleure possible, en tenant compte de toutes les prédictions.

Ressources supplémentaires

Finance est le fournisseur officiel de la certification mondiale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ L'accréditation Certified Banking & Credit Analyst (CBCA) ™ est une norme mondiale pour les analystes de crédit qui couvre la finance, la comptabilité, l'analyse de crédit et l'analyse des flux de trésorerie , modélisation d'alliances, remboursements de prêts, etc. programme de certification, conçu pour aider quiconque à devenir un analyste financier de classe mondiale. Pour continuer à faire avancer votre carrière, les ressources financières supplémentaires ci-dessous vous seront utiles:

  • Elastic Net Elastic Net Elastic net utilise de manière linéaire les pénalités des techniques de lasso et de crête pour régulariser les modèles de régression. La technique combine à la fois le lasso et
  • Overfitting Overfitting Overfitting est un terme utilisé dans les statistiques qui fait référence à une erreur de modélisation qui se produit lorsqu'une fonction correspond trop étroitement à un ensemble particulier de données
  • Évolutivité Évolutivité L'évolutivité peut s'inscrire dans des contextes de stratégie financière et commerciale. Dans les deux cas, cela signifie la capacité de l'entité à résister à la pression
  • Spoofing Spoofing Spoofing est une pratique de trading algorithmique perturbatrice qui consiste à placer des offres d'achat ou des offres de vente de contrats à terme et à annuler les offres ou les offres avant l'exécution de l'opération. La pratique vise à créer une fausse image de la demande ou un faux pessimisme sur le marché.

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022