Qu'est-ce que l'ensachage (agrégation Bootstrap)?

L'apprentissage automatique d'Ensemble peut être principalement catégorisé en ensachage et en boosting. La technique d'ensachage est utile à la fois pour la régression et la classification statistique. L'ensachage est utilisé avec les arbres de décision, où il augmente considérablement la stabilité des modèles en réduisant la variance et en améliorant la précision, ce qui élimine le défi du surajustement.

Ensachage

Figure 1. Flux d'ensachage (agrégation bootstrap). La source

L'ensachage dans l'apprentissage automatique d'ensemble prend plusieurs modèles faibles, agrégeant les prédictions pour sélectionner la meilleure prédiction. Les modèles faibles se spécialisent dans des sections distinctes de l'espace des fonctionnalités, ce qui permet aux prédictions d'effet de levier d'ensachage de provenir de chaque modèle pour atteindre le but ultime.

Résumé rapide

  • L'ensachage et le boosting sont les deux principales méthodes d'apprentissage automatique d'ensemble.
  • L'ensachage est une méthode d'ensemble qui peut être utilisée dans la régression et la classification.
  • Il est également connu sous le nom d'agrégation bootstrap, qui forme les deux classifications de l'ensachage.

Qu'est-ce que le bootstrapping?

L'ensachage est composé de deux parties: l'agrégation et le bootstrap. Le bootstrap est une méthode d'échantillonnage, où un échantillon est choisi dans un ensemble, en utilisant la méthode de remplacement. L'algorithme d'apprentissage est ensuite exécuté sur les échantillons sélectionnés.

La technique de bootstrap utilise un échantillonnage avec des remplacements pour rendre la procédure de sélection complètement aléatoire. Lorsqu'un échantillon est sélectionné sans remise, les sélections ultérieures de variables dépendent toujours des sélections précédentes, ce qui rend les critères non aléatoires.

Qu'est-ce que l'agrégation?

Les prédictions du modèle subissent une agrégation pour les combiner pour que la prédiction finale considère tous les résultats possibles. L'agrégation peut être effectuée en fonction du nombre total de résultats ou de la probabilité de prédictions dérivées du bootstrap de chaque modèle de la procédure.

Qu'est-ce qu'une méthode d'ensemble?

L'ensachage et le renforcement constituent les techniques d'ensemble les plus importantes. Une méthode d'ensemble est une plate-forme d'apprentissage automatique qui aide plusieurs modèles à s'entraîner grâce à l'utilisation du même algorithme d'apprentissage. La méthode d'ensemble fait partie d'un plus grand groupe de multi-classificateurs.

Les multi-classificateurs sont un groupe de plusieurs apprenants, se comptant par milliers, avec un objectif commun qui peut fusionner et résoudre un problème commun. Les méthodes hybrides constituent une autre catégorie de multi-classificateurs. Les méthodes hybrides utilisent un ensemble d'apprenants, mais contrairement aux multi-classificateurs, elles peuvent utiliser des méthodes d'apprentissage distinctes.

L'apprentissage fait face à de multiples défis, tels que des erreurs qui sont principalement dues au biais, au bruit et à la variance. La précision et la stabilité de l'apprentissage automatique sont garanties par des méthodes d'ensemble telles que l'ensachage et le boosting. Les combinaisons de classificateurs multiples réduisent la variance, en particulier lorsque les classificateurs sont instables, et ils sont importants pour présenter des résultats plus fiables qu'un seul classificateur.

L'application de l'ensachage ou de l'amplification nécessite d'abord la sélection d'un algorithme d'apprentissage de base. Par exemple, si l'on choisit un arbre de classification, alors le boosting et le bagging seraient un pool d'arbres d'une taille égale à la préférence de l'utilisateur.

Avantages et inconvénients de l'ensachage

Forêt aléatoire Forêt aléatoire La forêt aléatoire est une technique utilisée dans la modélisation des prédictions et l'analyse du comportement et est construite sur des arbres de décision. Une forêt aléatoire contient de nombreux arbres de décision est l'un des algorithmes de bagging les plus populaires. L'ensachage offre l'avantage de permettre à de nombreux apprenants faibles de combiner leurs efforts pour surpasser un seul apprenant fort. Il contribue également à la réduction de la variance, éliminant ainsi le surajustement Surajustement Le surajustement est un terme utilisé dans les statistiques qui fait référence à une erreur de modélisation qui se produit lorsqu'une fonction correspond trop étroitement à un ensemble particulier de données de modèles dans la procédure.

Un inconvénient de l'ensachage est qu'il introduit une perte d'interprétabilité d'un modèle. Le modèle résultant peut subir de nombreux biais lorsque la procédure appropriée est ignorée. Bien que l'ensachage soit très précis, il peut être coûteux en calcul et cela peut décourager son utilisation dans certains cas.

Ensachage vs boosting

La meilleure technique à utiliser entre l'ensachage et l'amplification dépend des données disponibles, de la simulation et des circonstances existantes à ce moment-là. La variance d'une estimation est considérablement réduite par les techniques d'ensachage et de suralimentation pendant la procédure de combinaison, augmentant ainsi la précision. Par conséquent, les résultats obtenus démontrent une stabilité plus élevée que les résultats individuels.

Lorsqu'un événement présente le défi d'une faible performance, la technique d'ensachage n'entraînera pas un meilleur biais. Cependant, la technique de boosting génère un modèle unifié avec moins d'erreurs car elle se concentre sur l'optimisation des avantages et la réduction des lacunes dans un modèle unique.

Lorsque le défi dans un seul modèle est le surajustement, la méthode d'ensachage fonctionne mieux que la technique d'amplification. Boosting fait face au défi de gérer le sur-ajustement car il vient avec le sur-ajustement en soi.

Lectures connexes

Finance propose la certification FMVA® Financial Modeling & Valuation Analyst (FMVA) ™. Rejoignez plus de 350 600 étudiants qui travaillent pour des entreprises comme Amazon, JP Morgan et le programme de certification Ferrari pour ceux qui cherchent à faire progresser leur carrière. Pour continuer à apprendre et développer votre base de connaissances, veuillez explorer les ressources financières pertinentes supplémentaires ci-dessous:

  • Échantillonnage en grappes Échantillonnage en grappes Dans les statistiques, l'échantillonnage en grappes est une méthode d'échantillonnage dans laquelle l'ensemble de la population de l'étude est divisée en groupes externes homogènes mais internes
  • Biais de confiance excessive Biais de confiance excessive Le biais de confiance excessive est une évaluation fausse et trompeuse de nos compétences, de notre intellect ou de notre talent. En bref, c'est une croyance égoïste que nous sommes meilleurs que nous ne le sommes en réalité. Cela peut être un biais dangereux et est très prolifique dans la finance comportementale et les marchés financiers.
  • Analyse de régression Analyse de régression L'analyse de régression est un ensemble de méthodes statistiques utilisées pour estimer les relations entre une variable dépendante et une ou plusieurs variables indépendantes. Il peut être utilisé pour évaluer la force de la relation entre les variables et pour modéliser la relation future entre elles.
  • Analyse des données des séries chronologiques Analyse des données des séries chronologiques L'analyse des données des séries chronologiques est l'analyse des ensembles de données qui changent au cours d'une période donnée. Les ensembles de données de séries chronologiques enregistrent les observations de la même variable à différents moments. Les analystes financiers utilisent des données de séries chronologiques telles que les mouvements du cours des actions ou les ventes d'une entreprise au fil du temps

Recommandé

Crackstreams a-t-il été fermé ?
2022
Le centre de commande MC est-il sûr ?
2022
Taliesin quitte-t-il un rôle critique?
2022